2016-03-18 51 views
1

我已經成功地配置MongoDB(5.3.1)和Nutch(2.3),當我運行命令「./bin/nutch index -all」後,在注入/ generate/fetch/parse/updatedb命令後打印了一些錯誤,錯誤的細節,如:用Nutch2.3配置MongoDB,關於indexerJob的一些錯誤?

SolrIndexerJob: java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local140530148_0001 
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120) 
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:154) 
    at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:176) 
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 
    at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211) 

我不得不配置$ NUTCH_HOME /運行/本地/ conf目錄/ Nutch的-site.xml中的文件 細節:

enter image description here

回答

0

如果所有其他步驟正在運行,它不會是與mongodb問題,但與solr(你的nutch-site.xml建議你想ind在solr中取出你的數據)。據我記得,當我使用solr時,我精簡了核心名稱,它會是這樣的:

http://localhost:8983/solr/mycore/ 
+1

謝謝你的回答。所以,你的意思是,我必須爲solr創建自己的新核心,然後編輯相關配置。您是否使用中等擴展名「MongoDB-Connector」來使用nutch同步您從seed.txt中搜尋的數據? –

+0

不,我用HBase存儲我的爬行分貝。爲索引我的數據,我在某些日子使用了Solr,並切換到彈性。是的,你可以試試這個,幾個月後我沒有碰到Solr,但是我記得我已經精簡了核心。也許這不是問題,但驗證速度很快。 :) –