2011-07-28 45 views
4

我使用HTML Tidy Online(http://infohound.net/tidy/)清理了一些包含一些希伯來字符的非常舊且混亂的HTML文件。每當Tidy處理頁面時,即使在更改設置中的編碼方法後,輸出也會將希伯來字符變成亂碼。使用不同的設置,我設法得到與希伯來字符相同的輸出作爲unicode實體。 我搜索了一個可能的解決方案,但沒有發現。 我有一些想法,但我不確定如何處理它們,如果有的話(也許有人有更好的解決方案)。由HTML Tidy處理的希伯來字符變成亂碼

  1. 我想也許我可以(處理頁面後)掃描unicode的實體頁面,並與相應的希伯來文字符替換它們(以系統的方式,當然)。
  2. 也許我可以採取HTML Tidy源代碼並修改它以適當地輸出希伯來字符。這個問題是,我懷疑我足夠的知識,甚至開始這樣的事情。
+0

你在HTML文件中聲明瞭一個字符集嗎?如果是這樣,哪一個? 「亂碼」究竟意味着什麼?告訴我們一個十六進制轉儲 – dan04

回答

2

我有類似的問題。包含Unicode字符的UTF-8文檔。 HTML Tidy將它們轉換爲HTML實體。這在HTMLTIDY.CFG修復了它:

char-encoding: utf8 
input-encoding: utf8 
output-encoding: utf8 

希望它有幫助。

0

您正在使用的網站http://infohound.net/tidy/在右下角有一個「字符編碼」子句。您需要選擇utf-8,但首先您需要確保頁面在測試編輯器中以UTF-8編碼。例如,在Notepad ++中,你可以去Encoding > Convert to UTF-8 without BOM