2
我想抓取一個頁面,我只需要採取HTML本身,避免所有的圖像/視頻等...... 是否有可能這樣做? 在此先感謝。如何抓取頁面,但無法在nutch 2.1中抓取視頻/圖像內容?
我想抓取一個頁面,我只需要採取HTML本身,避免所有的圖像/視頻等...... 是否有可能這樣做? 在此先感謝。如何抓取頁面,但無法在nutch 2.1中抓取視頻/圖像內容?
檢查regex-urlfilter.txt文件。
您可以包含您不想索引的文件擴展名的擴展名。例如
# skip image and other suffixes we can't yet parse
# for a more extensive coverage use the urlfilter-suffix plugin
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$
是的,這是默認配置。我評論了上面的代碼,以確保拍攝照片,並且是的。這次真是萬分感謝。 – Slavcho