有沒有辦法繼續Nutch Crawl任務被意外殺死？

我有一個Nutch爬行任務，這個任務已經運行了整整一天，直到我通過一個錯誤殺死了這個進程。有沒有辦法繼續Nutch Crawl任務被意外殺死？

我不想重新抓取種子（花費很多時間），所以我想知道是否有一種方法或一些Nutch Crawler參數，可以使抓取工具忽略那些已經被抓取的網址。

非常感謝！

2012-04-07 MrROY

開始抓取後，可能會在輸出目錄中創建一些段。使用bin/nutch命令和點選項到上一次運行的輸出目錄。對於urlDir參數，請使用單個url創建一個虛擬的URL（僅用於在urldir沒有任何url時遠離錯誤）。

2012-04-08 03:24:43

回答