我正在尋找一個很好的Java API來做網頁抓取。我試過WEB-Harvest api http://web-harvest.sourceforge.net/usage.php但我覺得它有點笨重。 還有其他建議嗎?用於網頁抓取或網頁挖掘的Java API
3
A
回答
0
我已經使用httpunit在生產中完成這項任務。
0
http://hc.apache.org/httpcomponents-client-ga/
(Maven的依賴)
<dependency>
<groupId>commons-httpclient</groupId>
<artifactId>commons-httpclient</artifactId>
<version>3.1</version>
</dependency>
0
我用這個:https://github.com/subes/invesdwin-webproxy
它支持的HttpClient和(支持JavaScript模擬瀏覽器)的HtmlUnit,如果需要在一個大池並行化,它的代理人。我也可以推薦JSoup進行靜態html處理。
相關問題
- 1. 用Java抓取網頁
- 2. Reactor 3.x(Java):用於網頁抓取
- 3. 網頁抓取,初學java
- 4. 網頁抓取/抓取基於GWT的網頁
- 5. 用於網頁抓取的Customazible管理頁面(網頁界面)
- 6. 使用JSoup網頁抓取網頁
- 7. Beautifulsoup網頁抓取
- 8. BeautifulSoup網頁抓取
- 9. PHP網頁抓取
- 10. Spyder - 網頁抓取
- 11. 使用Jsoup Java網頁抓取
- 12. 使用Java進行網頁抓取
- 13. 使用Java Swing進行網頁抓取
- 14. 使用Java抓取網頁數據
- 15. 使用vba抓取網頁
- 16. 用bs4抓取網頁
- 17. 用於網頁抓取服務的Perl,mod_perl2或CGI?
- 18. API Json輸出 - 抓取網頁內容
- 19. 網頁抓取/抓取的資源
- 20. Perl的網頁抓取
- 21. 在R的網頁抓取
- 22. Python的網頁抓取 - UnicodeEncodeError
- 23. python3中的網頁抓取
- 24. 的Python - 網頁抓取 - BeautifulSoup
- 25. 先進的網頁抓取
- 26. Python的SSL網頁抓取
- 27. C#網頁抓取的Javascript
- 28. 網站挖掘工具
- 29. 用於抓取網頁或調用API(特別是iTunes)的最快服務?
- 30. 網頁抓取/屏幕抓取
「還有其他建議嗎?」只有一個。請注意,搜索信息時。在這個話題上,這個詞是'刮'(一個'p'),而不是'拆卸'(這是一個單獨的詞,意思是「打架」或「傾銷」)。 – 2011-03-09 18:53:12
[如何「掃描」一個網站(或網頁)的信息,並將其帶入我的程序?](http://stackoverflow.com/questions/2835505/how-to-scan-a-website-或頁面換信息和 - 把 - 它 - 到 - 我的程序)。另請參見此[最近的問題](http://stackoverflow.com/questions/5240981/how-to-easily-parse-html-for-consumption-as-a-service-using-java)另一個示例。請注意,您基本上在問「什麼是Java中最好的HTML解析器?」。 – BalusC 2011-03-09 18:58:18
你可以按照[網絡與Java刮] [1] [1]:http://stackoverflow.com/questions/3202305/web-scraping-with-java – 2014-09-15 13:22:10