jsoup是一個可以解析HTML並提取元素數據的Java庫。要使用jsoup,首先通過解析文件,URL,整個文檔字符串或HTML片段字符串來創建一個jsoup文檔。一個HTML fragment的例子是這樣的:
String html = "<div class='module'>" +
"<div class='body'>" +
"<dl class='per_info'>" +
"<dt>F.Name:</dt>" +
"<dd><a class='nm' href='http://'>a Variable Name1</a></dd>" +
"<dt>L.Name:</dt>" +
"<dd><a class='nm' href='http://'>a Variable Name2</a></dd>" +
"</dl>" +
"</div>" +
"</div>";
Document doc = Jsoup.parseBodyFragment(html);
與文檔,你可以使用jsoup的selectors找到特定的元素:
// select all <a/> elements from the document
Elements anchors = doc.select("a")
與元素集合,可以在迭代器中的元素,並提取其元素內容:
for (Element anchor : anchors) {
String contents = anchor.text();
System.out.println(contents);
}
+1:最後有人要求*解析器*解析HTML而不是詢問正則表達式。 –
另一個+1不要求正則表達式。 – stratwine