2014-04-09 17 views
0

Java - 如何檢查一個URL是否真的存在錯誤頁面?

我檢查了一系列的URL像http://www.example.com/XX/content/1~100000.html它們是否存在。但該網站沒有自己的404處理頁面。即使根本不存在,每個網址都會返回200。我嘗試在命令行中捲曲。這表明像圖片如下: 的http:// XXXX「>

我也用HttpURLConnection.setFollowRedirects(假),但它沒有工作

是否還有來處理這個問題的方式?在此先感謝!

回答

3

這些通常被稱爲Soft 404s。該檢測它們的唯一方法是檢查內容,因爲頁眉不指示任何呃ROR。

如果你想構建一些通用的東西,那麼也許你可以嘗試獲取一個你知道肯定不存在的頁面作爲你的參考,並且比較你爬取的任何其他頁面以確定它是否是一個錯誤頁面或不是(您可能需要使用某種稍微不敏感的比較算法,因爲頁面內容可能會在不存在的不同頁面之間稍微改變)。不過,如果您要抓取隨機網站,則會出現錯誤。

1

你可以嘗試一下頁面,以找出錯誤頁面的內容,有可能是一些文字表明它是錯誤頁面。

+0

我認爲一個好的建議,但應該將其作爲評論 –

+0

但這是最後的手段。 –

+0

@ Java1對不起,我還未被評論。 –

相關問題