2016-10-04 91 views
1

我在solr中存儲的重複文檔很少。 Schema有一個自動生成的uuid作爲唯一鍵,所以重複項可以進入索引。我需要根據模式中的字段/字段獲取重複文檔的計數。如何根據索引字段找到solr中重複文檔的數量

我想在沒有編寫客戶端程序的情況下獲取快速數字,並通過完整的結果集,solr控制檯本身的東西。 試圖使用方面,但無法獲得總數。下面的查詢給出了'idfield'每個值的重複值,但是它們需要迭代到最後一頁並總結(超過幾百萬條)。

Q = *:* &面=真& facet.mincount = 2 & facet.field = idfield

回答

1

傑森方面的查詢可以用來找出獨特的價值在本博客中解釋 http://yonik.com/solr-count-distinct/

或者它可以使用崩潰濾波器和尋找差異 q也做= *:* & FQ = - 得到numfound和MatchAllDocs查詢減去{崩潰=真正的現場= idfield!}(*:*)

0

您還可以使用facet.mincount = 2通過在唯一標識字段上分面來獲取重複文檔。例如:?/ Solr的/核心/選擇Q = &面=上& field.field = uniqueidfield & facet.mincount = 2 & facet.missing =真 你也可以添加facet.limit = -1 &行= 0獲取帶有重複ID的文檔ID