由HTML Tidy處理的希伯來字符變成亂碼

我使用HTML Tidy Online（http://infohound.net/tidy/）清理了一些包含一些希伯來字符的非常舊且混亂的HTML文件。每當Tidy處理頁面時，即使在更改設置中的編碼方法後，輸出也會將希伯來字符變成亂碼。使用不同的設置，我設法得到與希伯來字符相同的輸出作爲unicode實體。我搜索了一個可能的解決方案，但沒有發現。我有一些想法，但我不確定如何處理它們，如果有的話（也許有人有更好的解決方案）。由HTML Tidy處理的希伯來字符變成亂碼

我想也許我可以（處理頁面後）掃描unicode的實體頁面，並與相應的希伯來文字符替換它們（以系統的方式，當然）。

也許我可以採取HTML Tidy源代碼並修改它以適當地輸出希伯來字符。這個問題是，我懷疑我足夠的知識，甚至開始這樣的事情。

來源

2011-07-28 Charles

你在HTML文件中聲明瞭一個字符集嗎？如果是這樣，哪一個？「亂碼」究竟意味着什麼？告訴我們一個十六進制轉儲 – dan04

我有類似的問題。包含Unicode字符的UTF-8文檔。 HTML Tidy將它們轉換爲HTML實體。這在HTMLTIDY.CFG修復了它：

char-encoding: utf8 
input-encoding: utf8 
output-encoding: utf8

希望它有幫助。

來源

2012-03-30 08:48:18 Jake

您正在使用的網站http://infohound.net/tidy/在右下角有一個「字符編碼」子句。您需要選擇utf-8，但首先您需要確保頁面在測試編輯器中以UTF-8編碼。例如，在Notepad ++中，你可以去Encoding > Convert to UTF-8 without BOM。

來源

2013-10-29 15:22:30 Ynhockey

由HTML Tidy處理的希伯來字符變成亂碼

回答

相關問題