2012-01-09 81 views
2

我使用JSoup來解析GB2312字符集頁: http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.htmljsoup輸出編碼問題

源代碼:

String testURL="http://vars.sinaapp.com/u/t/jsoup_output_encoding_issue.html"; 
Document doc=Jsoup.connect(testURL).get();   
System.out.println(
    doc.select("div").html() 
); 

此給出以下的輸出:

1:? 2:� 3:� 4:— 

我想與頁面源代碼相同:

1:· 2:慒 3:囉 4:— 

有沒有辦法做到這一點?

回答

1

嘗試設置doc.outputSettings().escapeMode(EscapeMode.xhtml)或打印之前改變輸出charset。 (參見documentation for EscapeMode)。

+0

感謝您的幫助,我嘗試過其他的字符集,'EscapeMode.xhtml'和'prettyPrint(false)',輸出是一樣的 – Koerr 2012-01-09 18:59:41

+0

@Zenofo:bummer =(考慮用幾件事情來更新你的問題試過,這可能會提高其他答案的質量。 – maerics 2012-01-09 19:00:16

+0

謝謝@maerics,對不起:) – Koerr 2012-01-09 19:05:14