2011-03-09 88 views
3

我正在尋找一個很好的Java API來做網頁抓取。我試過WEB-Harvest api http://web-harvest.sourceforge.net/usage.php但我覺得它有點笨重。 還有其他建議嗎?用於網頁抓取或網頁挖掘的Java API

+4

「還有其他建議嗎?」只有一個。請注意,搜索信息時。在這個話題上,這個詞是'刮'(一個'p'),而不是'拆卸'(這是一個單獨的詞,意思是「打架」或「傾銷」)。 – 2011-03-09 18:53:12

+1

[如何「掃描」一個網站(或網頁)的信息,並將其帶入我的程序?](http://stackoverflow.com/questions/2835505/how-to-scan-a-website-或頁面換信息和 - 把 - 它 - 到 - 我的程序)。另請參見此[最近的問題](http://stackoverflow.com/questions/5240981/how-to-easily-parse-html-for-consumption-as-a-service-using-java)另一個示例。請注意,您基本上在問「什麼是Java中最好的HTML解析器?」。 – BalusC 2011-03-09 18:58:18

+0

你可以按照[網絡與Java刮] [1] [1]:http://stackoverflow.com/questions/3202305/web-scraping-with-java – 2014-09-15 13:22:10

回答

0

我已經使用httpunit在生產中完成這項任務。

0

我用這個:https://github.com/subes/invesdwin-webproxy

它支持的HttpClient和(支持JavaScript模擬瀏覽器)的HtmlUnit,如果需要在一個大池並行化,它的代理人。我也可以推薦JSoup進行靜態html處理。