我試圖解析與Jsoup這個HTML文件:Jsoup解析某些字符不同
<html><body>Maître Corbeau, sur un arbre perché</body></html>
我用這條線:
Document document = Jsoup.parse(input, "UTF-8");
當我嘗試打印的文檔:
System.out.println(document.toString());
兩種輸出:
<html>
<head></head>
<body>
Maître Corbeau, sur un arbre perché
</body>
</html>
爲什麼一些字符會改變?
因爲您的輸入HTML編碼不正確。 – Smutje
請閱讀readFileToString方法的文檔。如果你沒有指定編碼,它將成爲平臺默認值。也許這是你的問題。 –
@Smutje我在html中添加了charset =「UTF-8」,但結果仍然相同。 – froi