0
問題是,可能存在不具有特定圖像擴展名的圖像。例如,Nutch2正在爬取以.ashx
結尾的頁面,但仍然是圖片。Nutch 2從抓取中排除內容類型圖像
有沒有一種方法可以使用HTML標頭過濾器排除圖片:content-type: images/*
或者其他等價物,但不基於url模式(regex-urlfilter.txt
)?
問題是,可能存在不具有特定圖像擴展名的圖像。例如,Nutch2正在爬取以.ashx
結尾的頁面,但仍然是圖片。Nutch 2從抓取中排除內容類型圖像
有沒有一種方法可以使用HTML標頭過濾器排除圖片:content-type: images/*
或者其他等價物,但不基於url模式(regex-urlfilter.txt
)?