1
是否可以通過Nutch抓取/抓取純HTML頁面(即沒有圖片,視頻,flash,excel,exe,pdf或word文件)?如何在Nutch中只抓取HTML?
如何查看Content-Type
的頁面,並通過Nutch獲取text/html
網頁?
是否可以通過Nutch抓取/抓取純HTML頁面(即沒有圖片,視頻,flash,excel,exe,pdf或word文件)?如何在Nutch中只抓取HTML?
如何查看Content-Type
的頁面,並通過Nutch獲取text/html
網頁?
編輯conf/regex-urlfilter.txt
:
設置文件後綴忽略:
-\.(jpg|gif|zip|ico)$