2013-07-27 89 views
0

當Nutch完成抓取時,它識別出有重複項要刪除,並通過說「刪除xxx重複項」並完成而沒有問題。唯一的問題是,它實際上並沒有刪除重複,儘管它說。Nutch沒有刪除Solr中的重複

我也嘗試過使用自身的dedup命令,結果是一樣的。

我Solr的& Nutch的建立在我的博客如圖所示,如果你想深入研究了一下,在不同的崗位每個階段:

http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html

+0

做你犯了什麼? :) –

+0

抓取完成後,Nutch運行自己的重複數據刪除工具,該工具不會要求或要求我提交任何內容,它全部是自動的 –

+0

您是否擁有主從複製?它沒有足夠的信息在這裏繼續我認爲 –

回答

0

在signatureField標籤我有而不是 「簽名」

<updateRequestProcessorChain name="dedupe"> 
    <processor class="org.apache.solr.update.processor.SignatureUpdateProcessorFactory"> 
    <bool name="enabled">true</bool> 
    <bool name="overwriteDupes">true</bool> 
    <str name="signatureField">signature</str> 
    <str name="fields">id</str> 
    <str name="signatureClass">org.apache.solr.update.processor.Lookup3Signature</str> 
    </processor> 
    <processor class="solr.LogUpdateProcessorFactory" /> 
    <processor class="solr.RunUpdateProcessorFactory" /> 
</updateRequestProcessorChain> 

完美的作品 「身份證」 現在