我們正在使用網絡抓取工具,並設置了一個具有隨機功能的睡眠功能(因此每次掃描之間的時間並不相同),但我們仍然在20分鐘後被雅虎阻止。 30個請求。Yahoo Web Scrapes:有什麼限制?
是否有人知道是否有限制(即:每分鐘20個請求,每小時200個)現在我們每個請求之間的平均值大約爲3-6秒。感謝您的任何幫助
我們正在使用網絡抓取工具,並設置了一個具有隨機功能的睡眠功能(因此每次掃描之間的時間並不相同),但我們仍然在20分鐘後被雅虎阻止。 30個請求。Yahoo Web Scrapes:有什麼限制?
是否有人知道是否有限制(即:每分鐘20個請求,每小時200個)現在我們每個請求之間的平均值大約爲3-6秒。感謝您的任何幫助
所以答案是5000查詢。從
http://forums.digitalpoint.com/showthread.php?t=736784
HTTP摘自://開發商。雅虎。 com/search/rate.html
該速率限制是針對其Web服務的。刮他們的結果是不允許的,期間;他們不會記錄這個限制,但放心它比5000次低很多。 – Aaronaught 2010-04-22 00:07:24
每3-6秒1請求是相當低的,所以也許你的爬蟲有另一個問題。
幾個想法:
這樣,如果你使用一個較高的水平天秤座都更容易像Mechanize。
感謝您的建議......我知道在過去我們使用的軟件隨機化了我們的IP地址......並且這似乎工作。 – bvandrunen 2010-04-21 15:48:32
可能值得測試IP來嘗試和隔離問題。還可以嘗試減慢請求速率,看看是否有超過30個請求。如果您使用多個IP,那麼您可以通過並行爬網來降低請求速率。 – hoju 2010-04-25 04:41:29
所以,爲了清楚起見,您在問我們如何違反雅虎的服務條款並且不會被抓到? – Aaronaught 2010-04-20 23:35:42
是的......這正是我所問的。 – bvandrunen 2010-04-20 23:36:44
如果雅虎管道已被用作刮板的一部分,則每10分鐘每IP只有200個請求的限制{10分鐘內每個管道的OR請求數量爲200個} – Skizz 2012-03-29 17:37:12