2011-10-24 93 views
2

我試圖讓nutch 1.3和solr 3.1一起工作。安裝Nutch 1.3和Solr 3.1

注意:我正在使用Windows並安裝了Cygwin。

我已經Nutch的安裝並做了基本的爬行(從運行時中運行/本地)

斌/ Nutch的抓取網址-dir爬-depth 3

這似乎已經基於工作TEH日誌(crawl.log) ... LinkDb:收於2011-10-24十四點22分47秒,經過:00:00:02 爬完成:爬

我已經Solr的安裝和檢驗斯塔LL與本地主機:8983/Solr的/管理員

我複製了Nutch的Schema.xml文件的例子\ Solr的\ conf文件夾

當我運行下面的命令

斌/ Nutch的solrindex http://localhost:8983/solr爬行/ crawldb爬行/ linkdb爬行/分段/ *

我得到以下錯誤(hadoop.log)

2011-10-24 15:39:26,467 WARN mapred.LocalJobRunner - job_local_0001 
org.apache.solr.common.SolrException: ERROR:unknown field 'content' 

ERROR:unknown field 'content' 
request: http://localhost:8983/solr/update?wt=javabin&version=2 
... 
org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48) 
    at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474) 
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411) 
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216) 
2011-10-24 15:39:26,676 ERROR solr.SolrIndexer - java.io.IOException: Job failed! 

我錯過了什麼?

+0

也許你在crawl/linkdb之前錯過了-linkdb標誌? – nottinhill

回答