1
對於Nutch的2.2.1,我知道2個爬行命令 - 斌/ Nutch的(一步一步),斌/爬行(全部在一個)Nutch的抓取命令
我知道如何指定抓取ID bin/crawl
命令。同樣,如何指定bin/nutch
命令的抓取標識?
我問的原因是,我運行了一個使用all-in-one crawl command "bin/crawl"
指定爬網ID的大型爬網作業,它在Solr中進行第9次爬網迭代索引時崩潰了。現在,我只想運行一個步驟"bin/nutch solrindex"
命令來完成中斷第9次迭代以完成solr索引。我應該如何在「bin/nutch solrindex
」命令中指定爬網ID?什麼是語法?
我都存儲在HBase的表抓取數據「webpage_test」