2015-09-21 88 views
0

我已經開始使用apache nutch進行爬取,並且我一直在遵循apache wiki nutch教程中顯示的步驟。按照說明中的說明,我可以在端口8983上設置solr服務器。我現在嘗試使用上述工具做索引,但我收到以下錯誤:一步一步索引到apache solr

Indexer: org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException: Expected mime type application/octet-stream but got text/html. <html> 
<head> 
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/> 
<title>Error 404 Not Found</title> 
</head> 
<body><h2>HTTP ERROR 404</h2> 
<p>Problem accessing /solr/update. Reason: 
<pre> Not Found</pre></p><hr><i><small>Powered by Jetty://</small></i><hr/> 

</body> 
</html> 

at org.apache.solr.client.solrj.impl.HttpSolrServer.executeMethod(HttpSolrServer.java:512) 
at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:210) 
at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:206) 
at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:124) 
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:168) 
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:146) 
at org.apache.nutch.indexwriter.solr.SolrIndexWriter.commit(SolrIndexWriter.java:164) 
at org.apache.nutch.indexer.IndexWriters.commit(IndexWriters.java:125) 
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:149) 
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:222) 
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) 
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:231) 

我使用Solr的首次所以在這任何幫助將是巨大的,因爲我沒有找到其他的解決方案,爲我工作。

+0

什麼是你正在運行的查詢,包括核心名稱(在下面的例子中test_core)解決了嗎? – YoungHobbit

+0

我想整合nutch與solr並將抓取數據從nutch發送到solr我正在使用nutch教程中的指令進行練習 –

回答

0

最可能的問題是/solr/update。最新版本的Solr不再支持默認收集(/solr/更新之間的缺失名稱)。

因此,如果您使用的是最新的(5.x)Solr,則需要該URL來反映您創建的集合名稱。因此,請查看Nutch教程或有關如何在URL中提供顯式集合名稱的文檔。

0

運行Apache Nutch 1.11和Apache Solr 5.3.1時遇到了同樣的錯誤。這個問題是由solr.server.url

bin/crawl -i -D solr.server.url=http://localhost:8983/solr/test_core urls/ TestCrawl/ 2