2011-11-14 43 views

回答

0

要從crawlDb中讀取,您可以使用CrawlDBReader類(org.apache.nutch.crawl包)。要從crawlDb中刪除/刪除url,可以使用CrawlDBMerger類(org.apache.nutch.crawl包)和「-filter」選項嘗試使用。但我建議您根據需要編寫一個Mapreduce刪除網址。