2
我正試圖用Apache nutch來爬取某個文件路徑。例如,如果我的網址是:是否有可能讓Nutch只搜索某個文件路徑?
www.foo.com/shoes/
我想繼續檢索網址,如:www.foo.com/shoes/nike和www.foo.com/shoes/ addidas和www.foo.com/shoes/addidas/soccer,但不抓取其他目錄,如www.foo.com/clothes或www.foo.com/watches。無論如何nutch可以做到這一點嗎?