2013-07-03 61 views

回答

2

使用JsoupJava的HTML解析器

jsoup是一個Java庫與現實世界的HTML工作。它爲 提供了一個非常方便的API,用於提取和操作數據,使用最好的DOM,CSS和類似jquery的方法。

閱讀的內容,因爲這很容易:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 
Elements newsHeadlines = doc.select("#mp-itn b a"); 
+0

我得到了jsoup的閱讀文檔的想法,但問題是,這種連接方法開連接並從URL中獲取對象和子對象,然後我需要處理HD上的保存部分? –

+0

@VictorOliveira JSoup將整個html加載到Document對象中。您可以遍歷該文檔並獲取節點。 –

+0

我很抱歉,但我仍然不明白我將如何使用這個對象和他的內容。我不會下載它作爲一個文件? –

1

使用Jsoup:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 
Strin html=doc.html(); 
//save html in a file