2016-12-28 31 views
0

我得到了文章數據庫,文本包含500個字符到2000個字符的數據,我從第三方得到這些數據, 用於新數據我必須檢查數據與我們已有數據的重複百分比,如果重複百分比大於50%,那麼我們必須拒絕該數據,否則會在數據庫中插入數據。可以使用Solr來計算文檔之間的匹配百分比嗎?

是否有可能在Solr中的重複百分比,如果是的話我們該如何實現這一點。

謝謝。

回答

1

Solr不能使用百分比相似度,但與得分的概念。直到第6版Solr使用TFIDF計算得分,並且如果您對如何計算得分感興趣,則可以參考this document。從版本6開始,得分使用BM25計算,如here所述。 所以,如果你想使用Solr的你需要按照下面的方法之一:

  1. 採用基於分數而不是百分比的方法;
  2. 建立你自己的相似性類來處理百分比。
+0

Solr 6及更高版本使用BM25作爲其默認相似度,而不是TDIDF(可用作「ClassicSimilarity」) – MatsLindh

+0

感謝@MatsLindh我通過相應的回答進行編輯。 – AR1

+0

這不適合我,是否有其他工具可以實現這一點。 –