Nutch的抓取命令

對於Nutch的2.2.1，我知道2個爬行命令 - 斌/ Nutch的（一步一步），斌/爬行（全部在一個）Nutch的抓取命令

我知道如何指定抓取ID bin/crawl命令。同樣，如何指定bin/nutch命令的抓取標識？

我問的原因是，我運行了一個使用all-in-one crawl command "bin/crawl"指定爬網ID的大型爬網作業，它在Solr中進行第9次爬網迭代索引時崩潰了。現在，我只想運行一個步驟"bin/nutch solrindex"命令來完成中斷第9次迭代以完成solr索引。我應該如何在「bin/nutch solrindex」命令中指定爬網ID？什麼是語法？

我都存儲在HBase的表抓取數據「webpage_test」

來源

2013-10-25 sunskin

您可以運行斌/ Nutch的solrindex並通過抓取和段文件夾中的參數。

Nutch將索引所有文檔，但不會創建重複項，因爲它將使用ID字段來確定它們是否已被插入。

來源

2013-10-25 16:13:24 nimeshjm

Nutch的抓取命令

回答

相關問題