0
是否可以定義將被抓取的特定文件類型?nutch - 如何抓取特定的文件類型?
我正在嘗試解決正則表達式-urlfildtr.txt文件,但我只看到如何指定哪種類型不可以抓取。
是否可以定義我只想抓取,比如.doc文件?
是否可以定義將被抓取的特定文件類型?nutch - 如何抓取特定的文件類型?
我正在嘗試解決正則表達式-urlfildtr.txt文件,但我只看到如何指定哪種類型不可以抓取。
是否可以定義我只想抓取,比如.doc文件?
在$ NUTCH_HOME/conf目錄/正則表達式,urlfilter.txt文件,刪除退出正則表達式模式並粘貼此:
+\.doc$
-.
這將只允許.doc文件得到抓取和過濾掉其餘的URL。