即時構建大型網絡爬蟲,當在位於互聯網服務器場中的專用Web服務器上運行網頁時爬網時,有多少實例是最佳實例。爬蟲實例
Q
爬蟲實例
0
A
回答
3
spare_memory_on_machine/memory_footprint_of_crawler_process * 0.95
4
要進行大規模的履帶你將不得不處理像一些問題:
•不可能性,以保持信息都在一個數據庫中。
•RAM不足,無法應付龐大的指數(S)
•多線程性能和併發
•履帶式陷阱(通過改變網址,日曆,會議IDS創建無限循環......)和重複內容。
•抓取從多臺計算機
•格式不正確的HTML代碼
•從服務器
•數據庫不壓縮恆HTTP錯誤,至極使你的空間約8倍大的需求。
•重新抓取例程和優先級。
•使用壓縮請求(Deflate/gzip)(適用於任何類型的搜尋器)。
和一些重要的事情
•尊重robots.txt的
•並在每個請求不受阻Web服務器履帶延遲。
最佳的線程配置將取決於您的代碼..我用.net運行100個進程。我建議您使用計劃類來避免不必要的開放線程。
PS。如果您使用5個線程,則需要多年時間才能實現「大規模」網絡爬行。
相關問題
- 1. Python爬蟲 - html.fromstring
- 2. 網絡爬蟲
- 3. Python的爬蟲?
- 4. 簡單的網絡爬蟲(例程)
- 5. 實現此爬蟲的難度
- 6. 做爬蟲解碼html實體?
- 7. 開源C++爬蟲?
- 8. C++網絡爬蟲
- 9. Java Web爬蟲庫
- 10. 文件爬蟲OSError
- 11. PHP網絡爬蟲
- 12. Python網絡爬蟲
- 13. java網絡爬蟲
- 14. 爬蟲vs刮板
- 15. php爬蟲檢測
- 16. 重定向爬蟲
- 17. 網絡爬蟲類
- 18. Gevent鏈接爬蟲
- 19. 自動網絡爬蟲
- 20. 網絡爬蟲的功能
- 21. 網絡爬蟲,反饋?
- 22. 動態內容和爬蟲
- 23. Scrapy遞歸鏈接爬蟲
- 24. 網絡爬蟲的Java
- 25. 遞歸網絡爬蟲perl
- 26. 簡單的網絡爬蟲
- 27. Python中的網絡爬蟲
- 28. scrapy避免爬蟲登出
- 29. 單頁網頁爬蟲PHP
- 30. 阻止蠕蟲爬行嗎?
你要抓取*網頁嗎?還是內聯網?一旦?每兩分鐘?出於什麼目的?你的問題太模糊,不能認真回答。請詳細說明一下。 – balpha 2009-06-21 10:03:01