1
我使用JSoup解析HTML文件並刪除XML中無效的元素,因爲我需要將XSLT應用於文件。我遇到的問題是「nbsp;」存在於我的文檔中。我需要將它們改爲unicode'#160;'以便我可以在文件上運行XSLT。如何使用JSoup以HTML格式將' '更改爲' '
所以我想:
<p> </p>
<p> </p>
<p> </p>
<p> </p>
是:
<p>   </p>
<p>   </p>
<p>   </p>
<p>   </p>
我試圖用文字代替,但它沒有工作:執行解析
Elements els = doc.body().getAllElements();
for (Element e : els) {
List<TextNode> tnList = e.textNodes();
for (TextNode tn : tnList){
String orig = tn.text();
tn.text(orig.replaceAll(" "," "));
}
}
代碼:
File f = new File ("C:/Users/jrothst/Desktop/Test File.htm");
Document doc = Jsoup.parse(f, "UTF-8");
doc.outputSettings().syntax(Document.OutputSettings.Syntax.xml);
System.out.println("Starting parse..");
performConversion(doc);
String html = doc.toString();
System.out.println(html);
FileUtils.writeStringToFile(f, doc.outerHtml(), "UTF-8");
如何使用JSoup庫使這些更改發生?
非常棒的答案,比查找和替換簡單得多。謝謝! – Justin