我想構建一個爬行程序,它可以在幾分鐘內更新數十萬個鏈接。 是否有任何成熟的方法來做調度? 是否需要分佈式系統? 限制性能的最大障礙是什麼? Thx。如何構建一個像谷歌一樣強大的爬蟲?
-4
A
回答
2
對於Python,你可以與Frontera的流逝Scrapinghub
https://github.com/scrapinghub/frontera
他們,使Scrapy同一人。
還有一個Apache Nutch,這是一個很老的項目。 http://nutch.apache.org/
0
除非您願意降低速度,否則所需的處理和內存量需要分佈式處理。請記住,您將處理數十億個鏈接和TB文本和圖像
1
您需要一個分佈式抓取工具,但不要重新發明輪子,請使用Apache Nutch。它完全是爲此目的而建造的,已經成熟和穩定,並被廣泛的社區用來應對大規模爬行。
相關問題
- 1. 有沒有像一個備份爬蟲?
- 2. 谷歌爬蟲如何通過互聯網找到每一個頁面
- 3. .htaccess和谷歌爬蟲錯誤
- 4. 自動登錄谷歌網頁爬蟲
- 5. 谷歌爬蟲時間限制
- 6. 谷歌爬蟲,cron和笨會議
- 7. 谷歌爬蟲和新聞股票
- 8. 如何使用htaccess檢測谷歌,bing,yahoo爬蟲
- 9. 如何創建像谷歌地圖這樣的大型組織結構圖?
- 10. 構建自動網絡爬蟲
- 11. 運行一個網站爬蟲
- 12. 是一個網絡爬蟲更合適?
- 13. 像谷歌一樣的全文搜索
- 14. 如何爲使用oauth2的網站構建Python爬蟲
- 15. 如何構建一個像Asp.Net ScriptManager一樣的控件
- 16. 我如何處理JavaScript的一個Perl的網絡爬蟲?
- 17. 如何使用Node.js創建Web爬蟲?
- 18. 如何在ASP.NET中創建Web爬蟲?
- 19. 用scrapy創建一個簡單的python爬蟲程序
- 20. 如何讓一個PHP爬蟲搜索特定的字符串?
- 21. 谷歌爬蟲沒有看到分段的角產生
- 22. 谷歌爬蟲怎麼看jQuery的鏈接重定向
- 23. 用於檢索谷歌搜索結果的Java Web爬蟲
- 24. 如何使用asp.net mvc3和c#構建網絡爬蟲?
- 25. Java 8 CompletedFuture網絡爬蟲不爬行一個URL
- 26. Python的爬蟲?
- 27. 如何在Java中設計一個Web爬蟲?
- 28. 困惑 - html5歷史api和谷歌爬蟲?
- 29. 谷歌網站管理員API - 將爬蟲標記爲固定
- 30. disqus SEO谷歌爬蟲不加載評論
MetalloyD,你能告訴我scrapy集羣,distributed-frontera有什麼區別嗎?我很困惑,各有什麼優點和缺點? – makeapp