2012-01-23 16 views
0

是否可以定義將被抓取的特定文件類型?nutch - 如何抓取特定的文件類型?

我正在嘗試解決正則表達式-urlfildtr.txt文件,但我只看到如何指定哪種類型不可以抓取。

是否可以定義我只想抓取,比如.doc文件?

回答

0

在$ NUTCH_HOME/conf目錄/正則表達式,urlfilter.txt文件,刪除退出正則表達式模式並粘貼此:

+\.doc$ 
-. 

這將只允許.doc文件得到抓取和過濾掉其餘的URL。