檢索索引前的Elasticsearch文檔相似性

好好整理了整整一天的頭髮，試圖找出那一個，我決定從社區獲得一些輸入。檢索索引前的Elasticsearch文檔相似性

應該提到，我對Elasticsearch相當陌生。

的想法是，我有一個包含一些文件的ES指數，我需要指數只有當與類似的字段內容不存在的文件（但不一定等於）已收錄的新文檔。

我可以在多個字段上執行匹配查詢並獲得查詢的全局分數，但由於該分數不是可用最大分數的百分比，所以我不確定如何設置閾值以確定是否可以插入或不是。

我顯然有點困惑的ES評分系統。在此先感謝您提供的所有幫助。

編輯：

作爲一個基本的例子

這已經編入索引：

{ 
    "title": "My first blog entry", 
    "text": "Just trying this out...", 
    "date": "2014/01/01" 
}

這是新的，但不應該被索引，因爲字段是不是平等的，但過於相似：

{ 
    "title": "My first blog entries", 
    "text": "Just trying it out...", 
    "date": "2014/01/01" 
}

這是新的和應該被索引：

{ 
    "title": "My second entry for this blog", 
    "text": "I am just trying out a few things", 
    "date": "2014/01/01" 
}

所以基本上重複數據刪除之前的索引和基於域類似之處，我以後:)

2016-02-25 SebScoFr

提供一些示例文檔以及您希望它們如何匹配（或不匹配）將是一個好主意。如果沒有更多的信息，很難描繪出你的想法。幫助我們來幫助你;-) – Val

嗨，我已經用例子更新了這個問題:) – SebScoFr

你需要一個完美的解決方案是查詢。

在這樣的查詢，可以提供在like場人工文件，將文件對您的索引中的相似性匹配。默認情況下，他們將使用所有可用字段，但您也可以選擇有限數量的字段進行比較。

大部分時間裏，該查詢用於檢索類似於一個文件或幾個文件，用戶可能在看，或者說，用戶選擇。儘管如此，您也可以使用此功能分析所返回文檔的分數（如果有）並決定是否索引您的文檔。

請參考上面鏈接有關參數的綜合列表的文檔頁面。

2016-02-26 08:30:02 micpalmia

謝謝，我要去調查more_like_this，看看它是怎麼回事！ – SebScoFr

回答