0
我在nutch 1.3中抓取網站。現在我想從crawldb中刪除一個url,我該怎麼做?我如何從crawldb讀取?我想看看crawldb中存在的網址。從nutch 1.3中的crawldb中刪除url?
我在nutch 1.3中抓取網站。現在我想從crawldb中刪除一個url,我該怎麼做?我如何從crawldb讀取?我想看看crawldb中存在的網址。從nutch 1.3中的crawldb中刪除url?
要從crawlDb中讀取,您可以使用CrawlDBReader類(org.apache.nutch.crawl包)。要從crawlDb中刪除/刪除url,可以使用CrawlDBMerger類(org.apache.nutch.crawl包)和「-filter」選項嘗試使用。但我建議您根據需要編寫一個Mapreduce刪除網址。