用Java閱讀網頁內容有什麼方法嗎?用於閱讀網站內容的Java代碼
網頁不是一個簡單的HTML頁面,它包含一個ajax調用,圖像,PDF和Flash。 我需要讀取/下載頁面的所有內容(執行ajax調用之後)。
請給我建議任何解決方案。
用Java閱讀網頁內容有什麼方法嗎?用於閱讀網站內容的Java代碼
網頁不是一個簡單的HTML頁面,它包含一個ajax調用,圖像,PDF和Flash。 我需要讀取/下載頁面的所有內容(執行ajax調用之後)。
請給我建議任何解決方案。
爲此各種HTML解析器present.you可以使用其中一個
http://ccil.org/~cowan/XML/tagsoup/
http://jericho.htmlparser.net/docs/index.html
這些解決方案中提取您的HTML標籤包含的圖像。對於CSS抽取,你可以使用CSS解析器。
您在尋找一個履帶和加工工具。
列出了很多open source crawlers。您可以使用它與Solr,搜索服務器