我正在閱讀網頁內容並使用變音符號檢查單詞。該單詞出現在頁面內容中。但python find('ü')
函數找不到這個單詞。python URL編碼與元音變音錯誤
import urllib2
opener = urllib2.build_opener()
page_content = opener.open(url).read()
page_content.find('ü')
我試圖用u'ü轉換搜索字符串。然後誤差
'SyntaxError: (unicode error) 'utf8' codec can't decode byte 0xfc in position 0'
我已經使用# - - 編碼:UTF-8 - - 在我的.py文件。
我打印了page_content。那裏的變音符號轉換爲'ü'。如果我嘗試page_content.find('ü'),它工作正常。請讓我知道是否有更好的解決方案。
我將不勝感激任何建議。
你在用什麼編輯器?保存文件時,請確保以UTF-8編碼保存(幾乎所有編輯器都有此選項)。在文件開始處使用編碼:utf-8的事實告訴解釋器你將使用utf-8,但是這並不會使utf-8文件被編碼,除非你自己編寫。 – 2012-07-26 11:33:32
檢查編碼行的位置 - 它必須是文件的第一行或第二行 – 2012-07-26 11:37:01
@MariaZverina這不起作用......即使他不會再收到錯誤,page_content.find('ü' )將始終返回-1,即使頁面包含ü。如上所述,他必須保存以UTF-8格式保存的文件才能正常工作。編碼聲明本身是不夠的。 – 2012-07-26 11:46:44