2016-08-09 69 views
0

問題是,可能存在不具有特定圖像擴展名的圖像。例如,Nutch2正在爬取以.ashx結尾的頁面,但仍然是圖片。Nutch 2從抓取中排除內容類型圖像

有沒有一種方法可以使用HTML標頭過濾器排除圖片:content-type: images/*或者其他等價物,但不基於url模式(regex-urlfilter.txt)?

回答

0

您可以通過編寫將擴展URLFilter接口的plugin來實現此目的。

String filter(String urlString)方法中,您可以檢查url是否有一些模糊的擴展名,然後通過從服務器獲取其HTTP標頭值進一步驗證,並檢查其內容類型是否爲圖像,然後返回null否則返回URL。但是我懷疑這不會是非常有效的方法,因爲許多無用的HTTP調用將僅用於此驗證目的。

另一件事就是讓它成爲和Nutch不會解析和/或索引圖像。