我使用HTML Tidy Online(http://infohound.net/tidy/)清理了一些包含一些希伯來字符的非常舊且混亂的HTML文件。每當Tidy處理頁面時,即使在更改設置中的編碼方法後,輸出也會將希伯來字符變成亂碼。使用不同的設置,我設法得到與希伯來字符相同的輸出作爲unicode實體。 我搜索了一個可能的解決方案,但沒有發現。 我有一些想法,但我不確定如何處理它們,如果有的話(也許有人有更好的解決方案)。由HTML Tidy處理的希伯來字符變成亂碼
- 我想也許我可以(處理頁面後)掃描unicode的實體頁面,並與相應的希伯來文字符替換它們(以系統的方式,當然)。
- 也許我可以採取HTML Tidy源代碼並修改它以適當地輸出希伯來字符。這個問題是,我懷疑我足夠的知識,甚至開始這樣的事情。
你在HTML文件中聲明瞭一個字符集嗎?如果是這樣,哪一個? 「亂碼」究竟意味着什麼?告訴我們一個十六進制轉儲 – dan04