2011-03-24 23 views
0

一些格式不正確和不完整的HTML頁面沒有分配給它們的字符集信息,我必須弄清楚如何顯示它們。由於有幾十個編碼系統,我不知道是否有一個算法可以用來正確執行這個任務。有這樣的事嗎?我如何猜測html文檔的字符集?

謝謝!

回答

1

嘗試jchardetchsdet。 字符集檢測是概率性的,所以在某些情況下可能會出錯,我幾年前就已經使用jchardet成功了。