0
A
回答
1
我認爲Ruby是蠻好的這些類型的任務組成:
- http://rubyrss.com/
- http://www.ruby-doc.org/stdlib/libdoc/rss/rdoc/index.html
- http://railscasts.com/episodes/173-screen-scraping-with-scrapi
如果您習慣用Ruby我看不出有任何理由掏出Java,Python等。對於大多數任務。請記住,許多Ruby庫位於本機實現上。
1
Feed(RSS?)通常結構良好(至少與常規網頁相比)。查看Web Harvest,一個基於Java/bean的基於shell的DOM解析器(等等)。您可以使用它來自動從互聯網上獲取數據。有一個領域特定的語言(用XML定義),你必須學習。它的學習曲線可能有點陡峭,但我覺得這是值得的努力。
0
我對Java並不是很熟悉,但我可以說Python非常適合這項工作。
有一個名爲BeautifulStoneSoup的非常快速的XML解析器模塊,您可以使用它。它是BeautifulSoup圖書館的一部分。如果你只是在尋找一個簡單的索引器,Python有一個內置的sqlite引擎,它也是輕量級且非常快速的。
相關問題
- 1. 多語言網站 - 如何檢測漫遊器/蜘蛛?
- 2. scrapy:蜘蛛中的小蜘蛛?
- 3. Nutch,蜘蛛,索引網頁它已經在它的索引?
- 4. 機器人引擎名稱爲搜索蜘蛛
- 5. 告訴通過PHP重定向與if語句和搜索引擎蜘蛛?
- 6. Ruby網絡蜘蛛和搜索引擎庫
- 7. 附表scrapyd蜘蛛和蜘蛛通過配置選項
- 8. 蜘蛛和刮板架構
- 9. Web蜘蛛和HTTP驗證
- 10. mvc與ajax內容使蜘蛛友好
- 11. Scrapy DOMAIN_NAME的蜘蛛
- 12. Python的scrapy蜘蛛
- 13. 防止索引目錄中的流氓蜘蛛
- 14. 搜索引擎中的蜘蛛如何工作?
- 15. Web蜘蛛與Wget的蜘蛛有什麼不同?
- 16. 如何喂蜘蛛蜘蛛爬行內的鏈接?
- 17. Scrapy - 檢索蜘蛛對象在dupefilter
- 18. 在蜘蛛情節
- 19. 製作蜘蛛restarable
- 20. asp.net(網絡蜘蛛)
- 21. 佈局像蜘蛛
- 22. Scrapy與Scrapy蜘蛛
- 23. 鏈接檢查器(蜘蛛爬行器)
- 24. 哪些搜索引擎蜘蛛執行javascript?
- 25. 在Django中,爲搜索引擎蜘蛛禁用@login_required
- 26. Nutch網絡蜘蛛,索引整個網絡
- 27. 如何向搜索引擎蜘蛛提供區域內容?
- 28. 做搜索引擎機器人 - 爬蟲 - 蜘蛛 - 等有他們的JavaScript?
- 29. 使用Scrapy創建蜘蛛,蜘蛛生成錯誤
- 30. Scrapy從主蜘蛛運行多個蜘蛛?