0
我得到了文章數據庫,文本包含500個字符到2000個字符的數據,我從第三方得到這些數據, 用於新數據我必須檢查數據與我們已有數據的重複百分比,如果重複百分比大於50%,那麼我們必須拒絕該數據,否則會在數據庫中插入數據。可以使用Solr來計算文檔之間的匹配百分比嗎?
是否有可能在Solr中的重複百分比,如果是的話我們該如何實現這一點。
謝謝。
我得到了文章數據庫,文本包含500個字符到2000個字符的數據,我從第三方得到這些數據, 用於新數據我必須檢查數據與我們已有數據的重複百分比,如果重複百分比大於50%,那麼我們必須拒絕該數據,否則會在數據庫中插入數據。可以使用Solr來計算文檔之間的匹配百分比嗎?
是否有可能在Solr中的重複百分比,如果是的話我們該如何實現這一點。
謝謝。
Solr不能使用百分比相似度,但與得分的概念。直到第6版Solr使用TFIDF計算得分,並且如果您對如何計算得分感興趣,則可以參考this document。從版本6開始,得分使用BM25計算,如here所述。 所以,如果你想使用Solr的你需要按照下面的方法之一:
Solr 6及更高版本使用BM25作爲其默認相似度,而不是TDIDF(可用作「ClassicSimilarity」) – MatsLindh
感謝@MatsLindh我通過相應的回答進行編輯。 – AR1
這不適合我,是否有其他工具可以實現這一點。 –