我使用請求來檢索包含一些unicode字符,並希望做一些處理,然後寫出來的url。lxml.html解析和utf-8與請求
r=requests.get(url)
f=open('unicode_test_1.html','w');f.write(r.content);f.close()
html = lxml.html.fromstring(r.content)
htmlOut = lxml.html.tostring(html)
f=open('unicode_test_2.html','w');f.write(htmlOut);f.close()
在unicode_test_1.html
,所有的字符看起來不錯,但在unicode_test_2.html,一些字符變爲亂碼,這是爲什麼?
我又試圖
html = lxml.html.fromstring(r.text)
htmlOut = lxml.html.tostring(html,encoding='latin1')
f=open('unicode_test_2.html','w');f.write(htmlOut);f.close()
似乎它的工作現在。但我不知道爲什麼會發生這種情況,總是使用latin1? r.text和r.content有什麼區別,爲什麼我不能使用encoding='utf-8'
寫出html?
你推薦的閱讀/視頻資源真的爲我清除了一些東西。謝謝。 – dmoench