我正在讀取從另一個軟件程序導入到excel xml文件中的字符串列表。我不確定excel文件的編碼是什麼,但我非常肯定它不是windows-1252,因爲當我嘗試使用該編碼時,我發現很多錯誤。字符編碼,XML,Excel,python
現在引起我麻煩的具體詞是:「Zmysłowska,Magdalena」(注意「l」不是標準的「l」,而是通過它的斜線)。
我已經嘗試了一些東西,伊利諾伊州何況他們三個在這裏:
(1)
page = unicode(page, "utf-8")
page = unicodedata.normalize("NFKD", page)
page = page.encode("utf-8", "ignore")
Output: Zmys\xc5\x82owska, Magdalena
Output after print statement: Zmysłowska, Magdalena
(2)
page = unicode(page, "utf-8")
page = unicodedata.normalize("NFKD", page)
Output: Zmys\u0142owska, Magdalena
Output after print statment: Zmysłowska, Magdalena
Note: this is great, but I need to encode it back to utf-8 before putting the string into my db. When I do that, by running page.encode("utf-8", "ignore"), I end up with Zmysłowska, Magdalena again.
(3) 什麼也不做(沒有規範化,不解碼,不編碼)。這似乎是字符串已經是UTF-8,當談到在然而,當我什麼都不做,該字符串與下面的輸出又結束了。
Output: Zmys\xc5\x82owska, Magdalena
Output after print statement: Zmysłowska, Magdalena
有我這個字符串轉換成一種方式UTF-8?
非常感謝 爲了這。 –