2013-01-14 68 views
4

我正在嘗試在craigslist上做一個HTTP GET sfbay.craigslist.org。這裏是我的(Ruby)的代碼是非常簡單的在craigslist上的HTTP GET被阻止

require 'net/http' 
result = Net::HTTP.get(URI.parse('http://sfbay.craigslist.org')) 

我最終得到一個錯誤「這個IP地址已經被自動阻止。」

只有當我從Amazon EC2或heroku上試用此功能時纔會出現此行爲。當我在我自己的電腦本地主機上再次嘗試時,我得到了正確的結果。這是否與亞馬遜EC2有關?

我想知道如果其他人有同樣的問題。我能做些什麼來訪問EC2的craigslist?

回答

8

我可以確認Craigslist正在通過IP(不是由用戶代理)阻止主要Amazon EC2 IP範圍。它適用於其他地方,但我懷疑任何音量都會導致其他IP被阻止。

你可以用tor四處走動。更重要的是,this stackoverflow question discusses data sources used by craigslist mashups

我甚至測試了一個巴西EC2,假設他們可能沒有封鎖所有的CIDR。沒有bueno。

+0

這不是不道德嗎?這顯然不會阻止谷歌或必應,當然,雅虎! – 2016-07-17 22:26:10