2013-07-08 41 views
0

我已經使用NUTCH 1.2成功爬過一個站點。現在我想將它與solr 3.1集成。問題是當我發出命令$ bin/nutch solrindex localhost:8080/solr/crawl/crawldb crawl/linkdb cra wl/segments/*時發生錯誤。我附上我的Nutch的日誌nutch 1.2 solr 3.1集成問題

請幫我解決這個問題

壞請求

要求://本地主機:8080/Solr的/更新重量= javabin &在組織版本= 2 。 apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:436) at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:245) at org.apache。 solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:105) at org.apache.solr.client.solrj.So lrServer.add(SolrServer.java:49) at org.apache.nutch.indexer.solr.SolrWriter.close(SolrWriter.java:75) at org.apache.nutch.indexer.IndexerOutputFormat $ 1.close(IndexerOutputFormat.java :48) at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411) at org.apache.hadoop .mapred.localjobrunner $ Job.run(LocalJobRunner.java:216) 2013-07-08 17:38:47,577錯誤solr.SolrIndexer - java.io.IOException:作業失敗!

回答

0

您需要將以下Apache Commons庫添加到類路徑中:commons-httpclient.jar(您將它放在其他JAR所在的文件夾所在的文件夾中,該文件夾用於您的nutch安裝)。

你可以找到的HttpClient這裏http://hc.apache.org/httpcomponents-client-ga/

當前版本請注意,有可能是您的Nutch的版本使用的舊版本的HttpClient和HttpClient的當前版本不向後與舊版本兼容。在這種情況下,您需要下載舊版本的HttpClient,並將舊版本包含在您的庫中。

+0

thanx寶貴的見解。添加http客戶端jar,但仍然存在一個錯誤... java.io.IOException:作業失敗! –

+0

編輯我的帖子,包括nutch日誌 –

+0

好吧,歡迎你。這意味着你的問題已經解決了,這個問題應該根據SO規則關閉。如果您在解決下一個錯誤(IOException)時遇到問題,那麼您應該詢問關於它的其他問題。而且你__不應該將你的新錯誤信息添加到原始問題中。這不是如何工作。 – bpgergo