可以使用Solr來計算文檔之間的匹配百分比嗎？

我得到了文章數據庫，文本包含500個字符到2000個字符的數據，我從第三方得到這些數據，用於新數據我必須檢查數據與我們已有數據的重複百分比，如果重複百分比大於50％，那麼我們必須拒絕該數據，否則會在數據庫中插入數據。可以使用Solr來計算文檔之間的匹配百分比嗎？

是否有可能在Solr中的重複百分比，如果是的話我們該如何實現這一點。

謝謝。

Solr不能使用百分比相似度，但與得分的概念。直到第6版Solr使用TFIDF計算得分，並且如果您對如何計算得分感興趣，則可以參考this document。從版本6開始，得分使用BM25計算，如here所述。所以，如果你想使用Solr的你需要按照下面的方法之一：

2016-12-28 13:05:40 AR1

Solr 6及更高版本使用BM25作爲其默認相似度，而不是TDIDF（可用作「ClassicSimilarity」） – MatsLindh

感謝@MatsLindh我通過相應的回答進行編輯。 – AR1

這不適合我，是否有其他工具可以實現這一點。 –

回答