基於ID的使用Nutch2.x與HBase進行爬取 - > SolrIndexerJob不起作用

我正在使用Nutch2.x與hbase 0.90.6，我注意到的第一個奇怪的事情是它創建了其具有crawlId前綴的「網頁」表即如果我的crawlId是C1，那麼它會創建表格爲'C1_webpage'，我認爲這不應該是。但它是這樣做的，我的工作[Inject - > Generate - > Fetch - > Parse - > DBUpdate]運行良好。基於ID的使用Nutch2.x與HBase進行爬取 - > SolrIndexerJob不起作用

現在我面對的問題是，使用此設置和'C1_webpage'表，SolrIndexjob沒有向Solr插入任何文檔，因爲我認爲它在'網頁'表中查找總是有0行且實際數據爲在'C1_webpage'中。

我該如何解決我的這個問題？任何人使用nutch2.x hbase 0.90.6和基於ID的爬行？

感謝，託尼

來源

2013-06-25 TonyMull

你可以用下面的腳本由crawlId運行solrIndexerJob。這將僅索引C1_webpage表。

bin/nutch solrindex http://localhost:8983/solr -all -crawlId C1

來源

2013-08-24 09:05:10 Mustafa

基於ID的使用Nutch2.x與HBase進行爬取 - > SolrIndexerJob不起作用

回答

相關問題