2013-09-11 44 views
2

我正試圖用Apache nutch來爬取某個文件路徑。例如,如果我的網址是:是否有可能讓Nutch只搜索某個文件路徑?

www.foo.com/shoes/

我想繼續檢索網址,如:www.foo.com/shoes/nike和www.foo.com/shoes/ addidas和www.foo.com/shoes/addidas/soccer,但不抓取其他目錄,如www.foo.com/clothes或www.foo.com/watches。無論如何nutch可以做到這一點嗎?

回答

0

你必須做的唯一一件事情就是寫在對應的模式/正則表達式,像

+ .www.foo.com /鞋

,並跳過一切通過使用

- *

一t你的crawl-urlfilter.txt的結尾!

相關問題