2012-10-05 91 views
1

是否可以通過Nutch抓取/抓取純HTML頁面(即沒有圖片,視頻,flash,excel,exe,pdf或word文件)?如何在Nutch中只抓取HTML?

如何查看Content-Type的頁面,並通過Nutch獲取text/html網頁?

回答

1

編輯conf/regex-urlfilter.txt

設置文件後綴忽略:

-\.(jpg|gif|zip|ico)$ 
相關問題