2009-06-21 166 views
0

即時構建大型網絡爬蟲,當在位於互聯網服務器場中的專用Web服務器上運行網頁時爬網時,有多少實例是最佳實例。爬蟲實例

+3

你要抓取*網頁嗎?還是內聯網?一旦?每兩分鐘?出於什麼目的?你的問題太模糊,不能認真回答。請詳細說明一下。 – balpha 2009-06-21 10:03:01

回答

3

spare_memory_on_machine/memory_footprint_of_crawler_process * 0.95

4

要進行大規模的履帶你將不得不處理像一些問題:

•不可能性,以保持信息都在一個數據庫中。

•RAM不足,無法應付龐大的指數(S)

•多線程性能和併發

•履帶式陷阱(通過改變網址,日曆,會議IDS創建無限循環......)和重複內容。

•抓取從多臺計算機

•格式不正確的HTML代碼

•從服務器

•數據庫不壓縮恆HTTP錯誤,至極使你的空間約8倍大的需求。

•重新抓取例程和優先級。

•使用壓縮請求(Deflate/gzip)(適用於任何類型的搜尋器)。

和一些重要的事情

•尊重robots.txt的

•並在每個請求不受阻Web服務器履帶延遲。

最佳的線程配置將取決於您的代碼..我用.net運行100個進程。我建議您使用計劃類來避免不必要的開放線程。

PS。如果您使用5個線程,則需要多年時間才能實現「大規模」網絡爬行。