0

在比較存儲在Solr數據存儲區中的「指紋」類型數據時,Solr能爲您提供最接近的匹配。例如,Solr - 最近匹配 - 此功能是否存在?

eJyFk0uyJSEIBbcEyEeWAwj7X8JzfDvKnuTAJIojWACwGB4QeM 
    HWCw0vLHlB8IWeF6hf4PNC2QunX3inWvDCO9WsF7heGHrhvYV3qvPEu- 
    87s9ELLi_8J9VzknReEH1h-BOKRULBwyZiEulgQZZr5a6OS8tqCo00cd 
    p86ymhoxZrbtQdgUxQvX5sIlF_2gUGQUDbM_ZoC28DDkpKNCHVkKCgpd 
    OHf-wweX9adQycnWtUoDjABumQwbJOXSZNur08Ew4ra8lxnMNuveIem6 
    LVLQKsIRLAe4gbj5Uxl96RpdOQ_Noz7f5pObz3_WqvEytYVsa6P707Jz 
    j4Oa7BVgpbKX5tS_qntcB9G--1tc7ZDU1HamuDI6q07vNpQTFx22avyR 

它可以找到這個記錄,如果它提供了一些非常相似的東西?它能提供一個信心評分嗎?

+0

Ngram會幫忙嗎? – aitchnyu 2012-07-16 06:32:42

回答

1

一個直接的方法可能是使用a fuzzy search,並選擇第一個命中(按分數),然後您需要檢查命中是否匹配良好,也許通過測試您可以找到一些好的經驗法則。

但不確定perf是否會成爲這樣長的令牌的問題。使用Lucene4.0,其中模糊性能得到很大提高。

0

您可以試試Ngram filter factory.您可以選擇與匹配/相似指紋一致的最小/最大克尺寸。

如果您的minGramSize和maxGramSize範圍很窄,則可以匹配具有相似指紋的文檔,而無需迭代誤報。