這與我的問題here有某種關係。Python中的編碼檢測庫
我通過HTTP處理大量文本(主要是HTML和XML)。我正在尋找一個python庫,可以根據不同的策略進行智能編碼檢測,並使用最好的字符編碼猜測將文本轉換爲unicode。
我發現chardet可以很好地進行自動檢測。但是,自動檢測一切都是問題,因爲它很慢並且非常違反所有標準。按照chardet
FAQ我不想擰這些標準。
從這裏同FAQ是的,我想看看編碼的地方名單:在HTTP Content-type
頭
- charset參數。
<meta http-equiv="content-type">
元素<head>
的網頁爲HTML 文件。- 編碼屬性XML XML prolog for XML 文檔。
- 自動檢測字符編碼作爲最後的手段。
基本上我希望能夠看到所有這些地方,並自動處理衝突信息。
有沒有這樣的圖書館,或者我需要自己寫嗎?
它看起來很有希望。謝謝! – parxier 2010-02-21 23:06:44