更換非ASCII字符我有一堆的HTML文件我使用Python中httplib2的包下載。 ' '顯示爲''。幫助在Python
<font color="#ff0000">02/12/2004Â </font> is showing while <font color="#ff0000">02/12/2004 </font> is the desired format.
如何更換'Â '
使用Python ' '
?非常感謝!
更換非ASCII字符我有一堆的HTML文件我使用Python中httplib2的包下載。 ' '顯示爲''。幫助在Python
<font color="#ff0000">02/12/2004Â </font> is showing while <font color="#ff0000">02/12/2004 </font> is the desired format.
如何更換'Â '
使用Python ' '
?非常感謝!
s.replace('Â ', ' ');
不過,雖然我還沒有使用httplib2的,我敢肯定,如果當你下載他們的HTML文件的來源正在發生變化的東西是錯誤的。這可能是解碼問題正在進行。你使用的是什麼版本的Python?如果它是Python 3,則內容將是字節序列,而不是字符串,因此您必須指定正確的代碼頁來解碼字節。
http://code.google.com/p/httplib2/wiki/ExamplesPython3
編輯:如果您不限於只使用httplib2的,也許你可以嘗試尋找到使用urllib
,urllib2
,或httplib
模塊是Python的2.6標準庫的一部分?
filtered_content = filter(lambda x: x in string.printable, content)
這解決了我的問題。謝謝!
這對我有同樣的問題。尼斯。 – AP257 2010-08-13 19:35:54
這並沒有解決你的問題,這刪除了caracters,而不是用空格替換它們。 – 2011-12-22 10:17:13
你有一個編碼的問題。而不是試圖刪除這個人物,尋找網頁的編碼,那麼當你閱讀文件,使用codecs
module代替open()
,使用正確的字符編碼。
是的,它與原始HTML稍有不同。我正在使用httplib2下載它們,而不是真正的瀏覽器。是否有什麼東西我必須包含在httlib2的頁眉下載頁面? – ThinkCode 2010-05-27 14:14:32