2013-02-16 57 views
-4

分析一些HTML頁面,我需要在一個時間來提取500計算器問題的答案,但我突然閱讀Eclipse的控制檯上的錯誤:從StackOverflow的

服務器返回的HTTP響應代碼:503網址: https://stackoverflow.com/search?q=lucene+IndexWriter+registerMerge%28

,如果我以後使用瀏覽器我讀到這條消息:

有來來回回的請求數量異常在這個IP地址。

爲了保護我們的用戶,我們目前無法處理來自此IP地址的更多請求。

我們將盡快恢復訪問權限,因此請儘快再試。

我這樣做的研究工作。我違反了一些SO規則嗎?

+5

您是否考慮過使用API​​而不是直接獲取HTML? – 2013-02-16 10:03:42

+0

不,我沒有... – user 2013-02-16 10:12:37

回答

4

消息很簡單:您正在屏幕抓取StackOverflow,並且SO不希望您這樣做。

如果你仍然想要蜘蛛網站,然後只是限制你的訪問速度,也許每100ms甚至250ms一次請求,而不是一次500(這是我以爲你在做什麼)。

+0

好的,我這樣做的研究工作,我認爲這不違反SO規則。 – user 2013-02-18 13:33:43