我正在從網址中抓取簡單的文本文件。urlopen用換行嗆着我
def scrape_contents_ex(url):
data = urllib2.urlopen(url)
return data.read()
的問題是,它產生被阻塞新行和製表符 「\ t」 的, 「\ R」 等字符串
實施例:
當我用python打印字符串輸出時,它用各種\字符呈現:
我不知道如何正確處理從urlopen讀取的輸出。我想將這些內容存儲在postgresql中。此外,我還有一個複雜的地方,內容很可能會產生unicode結果(漢字,西里爾等)。
什麼是正確和健壯的方式來閱讀和存儲這個?
完全無關的,你問什麼,但我發現請求庫比好得多urllib2的。 – ajthyng