我做了一點關於如何請求http網站和離線探索他們的研究;我發現這是一個可能的答案:離線HTTP與Java探索
http://www.javaworld.com/jw-05-2000/jw-0518-offload.html
但事情是,它不是那麼完整的或直觀。有沒有人有關於這個話題的好文學資料來源,我可以使用?
在此先感謝
我做了一點關於如何請求http網站和離線探索他們的研究;我發現這是一個可能的答案:離線HTTP與Java探索
http://www.javaworld.com/jw-05-2000/jw-0518-offload.html
但事情是,它不是那麼完整的或直觀。有沒有人有關於這個話題的好文學資料來源,我可以使用?
在此先感謝
使用Jsoup:Java的HTML解析器
jsoup是一個Java庫與現實世界的HTML工作。它爲 提供了一個非常方便的API,用於提取和操作數據,使用最好的DOM,CSS和類似jquery的方法。
閱讀的內容,因爲這很容易:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
使用Jsoup:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Strin html=doc.html();
//save html in a file
我得到了jsoup的閱讀文檔的想法,但問題是,這種連接方法開連接並從URL中獲取對象和子對象,然後我需要處理HD上的保存部分? –
@VictorOliveira JSoup將整個html加載到Document對象中。您可以遍歷該文檔並獲取節點。 –
我很抱歉,但我仍然不明白我將如何使用這個對象和他的內容。我不會下載它作爲一個文件? –