2013-06-25 26 views
0

我正在使用Nutch2.x與hbase 0.90.6,我注意到的第一個奇怪的事情是它創建了其具有crawlId前綴的「網頁」表即如果我的crawlId是C1,那麼它會創建表格爲'C1_webpage',我認爲這不應該是。但它是這樣做的,我的工作[Inject - > Generate - > Fetch - > Parse - > DBUpdate]運行良好。基於ID的使用Nutch2.x與HBase進行爬取 - > SolrIndexerJob不起作用

現在我面對的問題是,使用此設置和'C1_webpage'表,SolrIndexjob沒有向Solr插入任何文檔,因爲我認爲它在'網頁'表中查找總是有0行且實際數據爲在'C1_webpage'中。

我該如何解決我的這個問題? 任何人使用nutch2.x hbase 0.90.6和基於ID的爬行?

感謝, 託尼

回答

0

你可以用下面的腳本由crawlId運行solrIndexerJob。這將僅索引C1_webpage表。

bin/nutch solrindex http://localhost:8983/solr -all -crawlId C1