我寫了一個網絡爬蟲從www.amazon.com使用urllib2抓取產品信息,但似乎亞馬遜將每個IP的連接限制爲1 。如何在連接數量有限時快速抓取網頁
當我啓動多個線程同時抓取時,它會引起HTTP Error 503: Service Temporarily Unavailable
。 我想開始更多的線程來抓取快,所以我該如何解決這個錯誤?
我寫了一個網絡爬蟲從www.amazon.com使用urllib2抓取產品信息,但似乎亞馬遜將每個IP的連接限制爲1 。如何在連接數量有限時快速抓取網頁
當我啓動多個線程同時抓取時,它會引起HTTP Error 503: Service Temporarily Unavailable
。 我想開始更多的線程來抓取快,所以我該如何解決這個錯誤?
短版本:你不能,而且即使嘗試也不是個好主意。
您應該切換到使用Amazon API進行產品查詢。