Apache Nutch重新啓動抓取

我在本地模式下運行Apache Nutch 1.12。Apache Nutch重新啓動抓取

我需要編輯種子文件以刪除子域並添加一些新域，並希望從頭開始重新抓取。

問題是每當我重新開始爬行爬行重新開始從我停止它，這是我去除的子域中間。

我停止了通過殺死java進程（kill -9）的抓取 - 我試圖在bin目錄中創建一個.STOP文件，但沒有工作，所以我用kill。

現在每當我重新開始抓取時，我可以從輸出中看到它正在重新啓動停止作業的位置。我google了一下，遇到了停止hadoop工作，但我的服務器上沒有任何hadoop文件 - 唯一的hadoop引用是apache nutch目錄中的jar文件。

如何從一開始就重新開始抓取，而不是從最後一次抓取的位置開始抓取？有效地，我想開始一個新的爬行。

非常感謝

2017-06-19 user12345

要從頭開始，只需指定一個不同的爬目錄或刪除現有之一。從種子列表

卸下條目不會影響crawldb或段的內容。在不從零重新啓動的情況下刪除域可以做的是在url過濾器中添加一個模式，以便在更新步驟中將url從crawldb中刪除，或者至少在生成步驟中未選中。

2017-06-20 11:02:46

謝謝 - 我最終只指定一個不同的爬行。 – user12345

回答