我希望nutch抓取abc.com,但我只想索引car.abc.com。 car.abc.com鏈接可以在abc.com的任何級別。因此,基本上,我希望nutch通常保持抓取abc.com,但只索引以car.abc.com開頭的頁面。例如car.abc.com/toyota ... car.abc.com/honda ...如何僅使用Nutch索引某些網址的頁面?
我將regex-urlfilter.txt設置爲僅包含car.abc.com,並運行命令「generate crawl/crawldb crawl /段「,但它只是說」發生器:選擇0個記錄進行讀取,退出...「。我想car.abc.com鏈接只存在於幾個層面。
如何做到這一點? 謝謝。