2012-10-19 146 views
0

我正在使用快速礦工從特定數據中抓取網站。問題是如果我試圖經常抓取網站,它會提供錯誤的數據。抓取網站返回不良數據

如果我看到其他IP地址相同的數據它顯示不同的數據進行比較,以一個我在不同的IP地址抓取。

是否有任何解決方案來克服這個問題?今天

+0

你的意思是'壞數據'和'不同數據比較'[']'?我不知道你的問題是什麼。請提供一個過程和錯誤的確切描述! – maerch

回答

0

很多網站,尤其是網站值得挖掘(即:聯)用於檢測和沮喪抓取的所有,但一些大型搜索引擎,他們有協議的複雜方法。

試着改變你發送的瀏覽器代碼,以及分配一組機器,而不是一臺機器中爬行。在AWS上運行一堆微型實例比一個大型實例更可取。同時請確保您在請求之間設置延遲,因爲這兩者都是體貼的,並且有助於僞裝您的抓取工具。