根據Nutch消息,Nutch的最新版本2.3.1與Solr 4.10.3兼容,這是Solr的非常舊版本。Solr 6和Nutch 2.3.1集成
我們可以整合Solr 6和Nutch 2.3.1。如果將Solr 6集成,將會有什麼缺點?有人試過這個?
根據Nutch消息,Nutch的最新版本2.3.1與Solr 4.10.3兼容,這是Solr的非常舊版本。Solr 6和Nutch 2.3.1集成
我們可以整合Solr 6和Nutch 2.3.1。如果將Solr 6集成,將會有什麼缺點?有人試過這個?
這是一個老問題,但我剛剛得到了Nutch 1.12與Solr 6.3.0的交談。所需的架構/ solrconfig變化應該是Nutch的2.X相同的,所以這裏就是我所做的:
下載和產品都提取到某個目錄,例如〜/ mycrawler,然後進入Solr的目錄和Nutch的創建一個核心:
solr-6.3.0/bin $ ./solr start
solr-6.3.0/bin $ ./solr create_core -c nutch -d basic_configs
solr-6.3.0/bin $ ./solr stop
這將創建Solr的-6.3.0 /服務器/ Solr的/ Nutch的地方模式等將設。現在,我們需要與Nutch的提供的schema.xml中取出新的自動管理架構定義和替換:
solr-6.3.0/server/solr/nutch/conf $ rm managed-schema
solr-6.3.0/server/solr/nutch/conf $ cp ~/mycrawler/apache-nutch-1.12/conf/schema.xml .
現在編輯schema.xml中和去除的enablePositionIncrements="true"
所有實例都<filter class="solr.StopFilterFactory" ignoreCase="true" ...
定義。
而且在solr-6.3.0/server/solr/nutch/conf/solrconfig.xml
,評論這些typeMapping塊,所以你得到:
<processor class="solr.AddSchemaFieldsUpdateProcessorFactory">
<str name="defaultFieldType">strings</str>
<!--
<lst name="typeMapping">
<str name="valueClass">java.lang.Boolean</str>
<str name="fieldType">booleans</str>
</lst>
<lst name="typeMapping">
<str name="valueClass">java.util.Date</str>
<str name="fieldType">tdates</str>
</lst>
<lst name="typeMapping">
<str name="valueClass">java.lang.Long</str>
<str name="valueClass">java.lang.Integer</str>
<str name="fieldType">tlongs</str>
</lst>
<lst name="typeMapping">
<str name="valueClass">java.lang.Number</str>
<str name="fieldType">tdoubles</str>
</lst>
-->
</processor>
現在再次啓動服務器:
solr-6.3.0/bin $ ./solr start
如果你去管理GUI,它應該顯示核心開始時沒有進一步的模式問題。
現在抓取腳本可以運行,併成功寫入到我們的前沿Solr的(這可能是對Nutch的2略有不同):
./crawl -i \
-D solr.server.url=http://localhost:8983/solr/nutch \
~/mycrawler/nutch_work/seed \
~/mycrawler/nutch_work/crawl \
1
我在瀏覽器UI中遇到以下異常。任何想法? 'org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:無法核心Nutch的加載的conf:無法加載架構/server/solr/nutch/conf/schema.xml:插件[schema.xml]分析器/過濾器的初始化失敗:實例化類的錯誤:'org.apache.lucene.analysis.core.StopFilterFactory'' –
聽起來像您忘記刪除StopFilterFactory定義中的enablePositionIncrements =「true」之一。 ..有一堆都在schema.xml –
正是......解決了。 –
Nutch的包括它需要在所有領域的schema.xml $ NUTCH_HOME \的conf \ schema.xml中。 11個月前升級到solr 4.10.2的地方是https://github.com/apache/nutch/commit/a67cbc7d99c3b4172e690408f0abc54a098348bc – rleir