2017-06-19 107 views
0

我在本地模式下運行Apache Nutch 1.12。Apache Nutch重新啓動抓取

我需要編輯種子文件以刪除子域並添加一些新域,並希望從頭開始重新抓取。

問題是每當我重新開始爬行爬行重新開始從我停止它,這是我去除的子域中間。

我停止了通過殺死java進程(kill -9)的抓取 - 我試圖在bin目錄中創建一個.STOP文件,但沒有工作,所以我用kill。

現在每當我重新開始抓取時,我可以從輸出中看到它正在重新啓動停止作業的位置。我google了一下,遇到了停止hadoop工作,但我的服務器上沒有任何hadoop文件 - 唯一的hadoop引用是apache nutch目錄中的jar文件。

如何從一開始就重新開始抓取,而不是從最後一次抓取的位置開始抓取?有效地,我想開始一個新的爬行。

非常感謝

回答

0

要從頭開始,只需指定一個不同的爬目錄或刪除現有之一。從種子列表

卸下條目不會影響crawldb或段的內容。在不從零重新啓動的情況下刪除域可以做的是在url過濾器中添加一個模式,以便在更新步驟中將url從crawldb中刪除,或者至少在生成步驟中未選中。

+0

謝謝 - 我最終只指定一個不同的爬行。 – user12345