好好整理了整整一天的頭髮,試圖找出那一個,我決定從社區獲得一些輸入。檢索索引前的Elasticsearch文檔相似性
應該提到,我對Elasticsearch相當陌生。
的想法是,我有一個包含一些文件的ES指數,我需要指數只有當與類似的字段內容不存在的文件(但不一定等於)已收錄的新文檔。
我可以在多個字段上執行匹配查詢並獲得查詢的全局分數,但由於該分數不是可用最大分數的百分比,所以我不確定如何設置閾值以確定是否可以插入或不是。
我顯然有點困惑的ES評分系統。 在此先感謝您提供的所有幫助。
編輯:
作爲一個基本的例子
這已經編入索引:
{
"title": "My first blog entry",
"text": "Just trying this out...",
"date": "2014/01/01"
}
這是新的,但不應該被索引,因爲字段是不是平等的,但過於相似:
{
"title": "My first blog entries",
"text": "Just trying it out...",
"date": "2014/01/01"
}
這是新的和應該被索引:
{
"title": "My second entry for this blog",
"text": "I am just trying out a few things",
"date": "2014/01/01"
}
所以基本上重複數據刪除之前的索引和基於域類似之處,我以後:)
提供一些示例文檔以及您希望它們如何匹配(或不匹配)將是一個好主意。如果沒有更多的信息,很難描繪出你的想法。幫助我們來幫助你;-) – Val
嗨,我已經用例子更新了這個問題:) – SebScoFr