0
我在本地模式下運行Apache Nutch 1.12。Apache Nutch重新啓動抓取
我需要編輯種子文件以刪除子域並添加一些新域,並希望從頭開始重新抓取。
問題是每當我重新開始爬行爬行重新開始從我停止它,這是我去除的子域中間。
我停止了通過殺死java進程(kill -9)的抓取 - 我試圖在bin目錄中創建一個.STOP文件,但沒有工作,所以我用kill。
現在每當我重新開始抓取時,我可以從輸出中看到它正在重新啓動停止作業的位置。我google了一下,遇到了停止hadoop工作,但我的服務器上沒有任何hadoop文件 - 唯一的hadoop引用是apache nutch目錄中的jar文件。
如何從一開始就重新開始抓取,而不是從最後一次抓取的位置開始抓取?有效地,我想開始一個新的爬行。
非常感謝
謝謝 - 我最終只指定一個不同的爬行。 – user12345