我是ElasticSearch的新手,希望在繼續之前查看是否有可能發生。ElasticSearch - 比較兩個索引中文檔的標題
我有兩個索引(它不一定是,它們可以有不同的結構)。
爲了簡便起見,這些指標都與文件的標題。
即
{
"_index": "source1",
"_type": "document",
"_id": "1",
"_version": 2,
"found": true,
"_source": {
"title": "Defendant: SMITH, JOHN. Charge: Murder."
}
}
{
"_index": "source2",
"_type": "document",
"_id": "1",
"_version": 1,
"found": true,
"_source": {
"title": "SMITH, John Edward"
}
}
每個索引將有20-30萬人行,但會在所有關於6項指標。
我需要比較所有索引中的所有文檔,並根據標題中的單詞(主要查看標題中的名稱)找出最有可能匹配的文檔。
基本上我需要在不知道搜索條件的情況下進行搜索。
我將使用NEST和ElasticSearch。有人能指出我正確的方向嗎?謝謝。
_根據title_中的詞最有可能匹配 - 區分大小寫/不區分大小寫?詞應該經過詞幹還是詞性化?同義詞是否應該考慮在內?相關性評分有一些門檻嗎?一個簡單(天真)的第一種方法可以是使用更多像這樣的查詢:https://www.elastic.co/guide/en/elasticsearch/reference/5.6/query-dsl-mlt-query.html –