2013-11-15 146 views
0

我有一臺運行Nutch的服務器,它提供給Solr。 Nutch的輸入是一個rss feed的xml,它似乎在使用適當的feed插件來解析它。Nutch + Solr; SolrDeleteDuplicates刪除除索引之外的所有內容

當運行一個基本的爬行,抓取和識別在XML中的各個環節適當地,和索引文件的正確的號碼。然而,SolrDeleteDuplicates似乎刪除了除了一個之外的所有東西 - 沒有被刪除的東西似乎是隨機的。

Indexing 21 documents 
SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22 
SolrDeleteDuplicates: starting at 2013-11-15 13:35:53 
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr 
SolrDeleteDuplicates: deleting 20 duplicates 

任何想法?

回答

0

很可能是因爲錯誤配置的重複數據刪除的設置來看看這是所有表項一致的領域。所以,Solr認爲他們都是相同的記錄。

如果沒有,請使用您針對重複數據刪除組件配置的問題更新您的問題。

相關問題