從nutch 1.3中的crawldb中刪除url？

我在nutch 1.3中抓取網站。現在我想從crawldb中刪除一個url，我該怎麼做？我如何從crawldb讀取？我想看看crawldb中存在的網址。從nutch 1.3中的crawldb中刪除url？

2011-11-14 helen

要從crawlDb中讀取，您可以使用CrawlDBReader類（org.apache.nutch.crawl包）。要從crawlDb中刪除/刪除url，可以使用CrawlDBMerger類（org.apache.nutch.crawl包）和「-filter」選項嘗試使用。但我建議您根據需要編寫一個Mapreduce刪除網址。

來源

2011-11-15 05:44:02 Varshith

從nutch 1.3中的crawldb中刪除url？

回答

相關問題