2013-10-25 76 views
1

對於Nutch的2.2.1,我知道2個爬行命令 - 斌/ Nutch的(一步一步),斌/爬行(全部在一個)Nutch的抓取命令

我知道如何指定抓取ID bin/crawl命令。同樣,如何指定bin/nutch命令的抓取標識?

我問的原因是,我運行了一個使用all-in-one crawl command "bin/crawl"指定爬網ID的大型爬網作業,它在Solr中進行第9次爬網迭代索引時崩潰了。現在,我只想運行一個步驟"bin/nutch solrindex"命令來完成中斷第9次迭代以完成solr索引。我應該如何在「bin/nutch solrindex」命令中指定爬網ID?什麼是語法?

我都存儲在HBase的表抓取數據「webpage_test」

回答

1

您可以運行斌/ Nutch的solrindex並通過抓取和段文件夾中的參數。

Nutch將索引所有文檔,但不會創建重複項,因爲它將使用ID字段來確定它們是否已被插入。