如何在連接數量有限時快速抓取網頁

我寫了一個網絡爬蟲從www.amazon.com使用urllib2抓取產品信息，但似乎亞馬遜將每個IP的連接限制爲1 。如何在連接數量有限時快速抓取網頁

當我啓動多個線程同時抓取時，它會引起HTTP Error 503: Service Temporarily Unavailable。我想開始更多的線程來抓取快，所以我該如何解決這個錯誤？

來源

2013-04-28 wei zhang

短版本：你不能，而且即使嘗試也不是個好主意。

來源

2013-04-28 16:28:46 rmunn

您應該切換到使用Amazon API進行產品查詢。

來源

2013-04-28 16:33:03 Sven

使用python requests模塊通過代理IP進行連接。該代碼將看起來像

import requests 

proxies = { 
    "http": "<an HTTP proxy IP>", 
    "https": "<an HTTPS proxy IP>" 
} 
response = requests.get("http://your_url.com", proxies=proxies)

您應該能夠從here 獲得HTTP和HTTPS代理IPS見this更多的幫助

來源

2013-04-28 17:20:00 lovesh

如何在連接數量有限時快速抓取網頁

回答

相關問題