2012-04-07 43 views
0

我有一個Nutch爬行任務,這個任務已經運行了整整一天,直到我通過一個錯誤殺死了這個進程。有沒有辦法繼續Nutch Crawl任務被意外殺死?

我不想重新抓取種子(花費很多時間),所以我想知道是否有一種方法或一些Nutch Crawler參數,可以使抓取工具忽略那些已經被抓取的網址。

非常感謝!

回答

0

開始抓取後,可能會在輸出目錄中創建一些段。使用bin/nutch命令和點​​選項到上一次運行的輸出目錄。對於urlDir參數,請使用單個url創建一個虛擬的URL(僅用於在urldir沒有任何url時遠離錯誤)。

相關問題