爬蟲實例

即時構建大型網絡爬蟲，當在位於互聯網服務器場中的專用Web服務器上運行網頁時爬網時，有多少實例是最佳實例。爬蟲實例

2009-06-21 kar

你要抓取*網頁嗎？還是內聯網？一旦？每兩分鐘？出於什麼目的？你的問題太模糊，不能認真回答。請詳細說明一下。 – balpha 2009-06-21 10:03:01

spare_memory_on_machine/memory_footprint_of_crawler_process * 0.95

2009-06-21 10:06:13 chaos

要進行大規模的履帶你將不得不處理像一些問題：

•不可能性，以保持信息都在一個數據庫中。

•RAM不足，無法應付龐大的指數（S）

•多線程性能和併發

•履帶式陷阱（通過改變網址，日曆，會議IDS創建無限循環......）和重複內容。

•抓取從多臺計算機

•格式不正確的HTML代碼

•從服務器

•數據庫不壓縮恆HTTP錯誤，至極使你的空間約8倍大的需求。

•重新抓取例程和優先級。

•使用壓縮請求（Deflate/gzip）（適用於任何類型的搜尋器）。

和一些重要的事情

•尊重robots.txt的

•並在每個請求不受阻Web服務器履帶延遲。

最佳的線程配置將取決於您的代碼..我用.net運行100個進程。我建議您使用計劃類來避免不必要的開放線程。

PS。如果您使用5個線程，則需要多年時間才能實現「大規模」網絡爬行。

2011-12-19 14:17:12 lexmooze

回答