2013-04-28 85 views
1

我寫了一個網絡爬蟲從www.amazon.com使用urllib2抓取產品信息,但似乎亞馬遜將每個IP的連接限制爲1 。如何在連接數量有限時快速抓取網頁

當我啓動多個線程同時抓取時,它會引起HTTP Error 503: Service Temporarily Unavailable。 我想開始更多的線程來抓取快,所以我該如何解決這個錯誤?

回答

1

短版本:你不能,而且即使嘗試也不是個好主意。

0

您應該切換到使用Amazon API進行產品查詢。

0

使用python requests模塊通過代理IP進行連接。該代碼將看起來像

import requests 

proxies = { 
    "http": "<an HTTP proxy IP>", 
    "https": "<an HTTPS proxy IP>" 
} 
response = requests.get("http://your_url.com", proxies=proxies) 

您應該能夠從here 獲得HTTP和HTTPS代理IPS見this更多的幫助