0
當Nutch完成抓取時,它識別出有重複項要刪除,並通過說「刪除xxx重複項」並完成而沒有問題。唯一的問題是,它實際上並沒有刪除重複,儘管它說。Nutch沒有刪除Solr中的重複
我也嘗試過使用自身的dedup命令,結果是一樣的。
我Solr的& Nutch的建立在我的博客如圖所示,如果你想深入研究了一下,在不同的崗位每個階段:
http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html
做你犯了什麼? :) –
抓取完成後,Nutch運行自己的重複數據刪除工具,該工具不會要求或要求我提交任何內容,它全部是自動的 –
您是否擁有主從複製?它沒有足夠的信息在這裏繼續我認爲 –