2010-04-20 39 views
-1

我們正在使用網絡抓取工具,並設置了一個具有隨機功能的睡眠功能(因此每次掃描之間的時間並不相同),但我們仍然在20分鐘後被雅虎阻止。 30個請求。Yahoo Web Scrapes:有什麼限制?

是否有人知道是否有限制(即:每分鐘20個請求,每小時200個)現在我們每個請求之間的平均值大約爲3-6秒。感謝您的任何幫助

+0

所以,爲了清楚起見,您在問我們如何違反雅虎的服務條款並且不會被抓到? – Aaronaught 2010-04-20 23:35:42

+0

是的......這正是我所問的。 – bvandrunen 2010-04-20 23:36:44

+0

如果雅虎管道已被用作刮板的一部分,則每10分鐘每IP只有200個請求的限制{10分鐘內每個管道的OR請求數量爲200個} – Skizz 2012-03-29 17:37:12

回答

0

每3-6秒1請求是相當低的,所以也許你的爬蟲有另一個問題。

幾個想法:

  • 設置的用戶代理給一些非可疑
  • 設置Referer標頭在同一個域
  • 嘗試從不同IP的情況下,當前的運行抓取工具IP被列入黑名單
  • 嘗試保持餅乾

這樣,如果你使用一個較高的水平天秤座都更容易像Mechanize

+0

感謝您的建議......我知道在過去我們使用的軟件隨機化了我們的IP地址......並且這似乎工作。 – bvandrunen 2010-04-21 15:48:32

+0

可能值得測試IP來嘗試和隔離問題。還可以嘗試減慢請求速率,看看是否有超過30個請求。如果您使用多個IP,那麼您可以通過並行爬網來降低請求速率。 – hoju 2010-04-25 04:41:29