0
我有一臺運行Nutch的服務器,它提供給Solr。 Nutch的輸入是一個rss feed的xml,它似乎在使用適當的feed插件來解析它。Nutch + Solr; SolrDeleteDuplicates刪除除索引之外的所有內容
當運行一個基本的爬行,抓取和識別在XML中的各個環節適當地,和索引文件的正確的號碼。然而,SolrDeleteDuplicates似乎刪除了除了一個之外的所有東西 - 沒有被刪除的東西似乎是隨機的。
Indexing 21 documents
SolrIndexer: finished at 2013-11-15 13:53:53, elapsed: 00:00:22
SolrDeleteDuplicates: starting at 2013-11-15 13:35:53
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
SolrDeleteDuplicates: deleting 20 duplicates
任何想法?