是否有可能讓Nutch只搜索某個文件路徑？

我正試圖用Apache nutch來爬取某個文件路徑。例如，如果我的網址是：是否有可能讓Nutch只搜索某個文件路徑？

www.foo.com/shoes/

我想繼續檢索網址，如：www.foo.com/shoes/nike和www.foo.com/shoes/ addidas和www.foo.com/shoes/addidas/soccer，但不抓取其他目錄，如www.foo.com/clothes或www.foo.com/watches。無論如何nutch可以做到這一點嗎？

來源

2013-09-11 nleazer

你必須做的唯一一件事情就是寫在對應的模式/正則表達式，像

+ .www.foo.com /鞋

，並跳過一切通過使用

- *

一t你的crawl-urlfilter.txt的結尾！

來源

2013-09-16 07:56:22

是否有可能讓Nutch只搜索某個文件路徑？

回答

相關問題