事情是:我有一個webcrawler框架,以及實現此框架的獨立模塊。所有這些模塊都從新聞特定網站捕捉新聞。IOException缺少細節 - 403錯誤
在框架中有2個不可預知的錯誤:IOException和SocketTimeoutException。由於顯而易見的原因(網站可能處於脫機狀態,和/或正在維護中)
事情是:在特定網站(THIS one)中,我隨機得到隨機IOException。我試着預測它,但我仍然不知道爲什麼我會得到這個錯誤。
我想它是在測試階段從轟炸它的請求。這不是,因爲在2或3天內沒有發送其他申請,它仍然會引發我的錯誤。
一言以蔽之:該網站不需要身份驗證,並隨機拋出403 RANDOMLY
既然403可以是多個不同的錯誤,我想看到的是我的應用程序中的特定問題。
如果我能得到它,我可以嘗試解決它。 (403.1,403.2,...,403.n)
//If you guys want the code, it's a basic Jsoup get.
//(I have also tried it with native API,
//and still get the same random 403 errors)
//Note that I also tried it with no redirection, and still get the error
Document doc = Jsoup
.connect("http://www.agoramt.com.br/")
.timeout(60000)
.followRedirects(true)
.get();
//You may criticize about the code. But this specific line is the one
//that throws the error. And it doesn't randomly do that to other 3k
//site connections. That's why I want to get the specifics from the 403
403意味着訪問被禁止給你。你需要更多的理由嗎? – erickson
那麼爲什麼它會隨機拋出這個錯誤呢? –
啊,我明白了。問題是*隨機。*對於完全相同的URL?你有沒有看到任何聚集的時間?您是否嘗試過從不同的源IP地址進行爬網,或者更好地完成不同的網絡攔截? – erickson