2017-09-25 65 views
0

我是ElasticSearch的新手,希望在繼續之前查看是否有可能發生。ElasticSearch - 比較兩個索引中文檔的標題

我有兩個索引(它不一定是,它們可以有不同的結構)。

爲了簡便起見,這些指標都與文件的標題。

{ 
    "_index": "source1", 
    "_type": "document", 
    "_id": "1", 
    "_version": 2, 
    "found": true, 
    "_source": { 
     "title": "Defendant: SMITH, JOHN. Charge: Murder." 
    } 
} 

{ 
    "_index": "source2", 
    "_type": "document", 
    "_id": "1", 
    "_version": 1, 
    "found": true, 
    "_source": { 
     "title": "SMITH, John Edward" 
    } 
} 

每個索引將有20-30萬人行,但會在所有關於6項指標。

我需要比較所有索引中的所有文檔,並根據標題中的單詞(主要查看標題中的名稱)找出最有可能匹配的文檔。

基本上我需要在不知道搜索條件的情況下進行搜索。

我將使用NEST和ElasticSearch。有人能指出我正確的方向嗎?謝謝。

+0

_根據title_中的詞最有可能匹配 - 區分大小寫/不區分大小寫?詞應該經過詞幹還是詞性化?同義詞是否應該考慮在內?相關性評分有一些門檻嗎?一個簡單(天真)的第一種方法可以是使用更多像這樣的查詢:https://www.elastic.co/guide/en/elasticsearch/reference/5.6/query-dsl-mlt-query.html –

回答

0

對我而言,最好的方法是用您的類型名稱反轉您的索引名稱。

類型document對於兩個索引都是相同的,所以將所有文檔放在同一個索引中,使用不同的類型。然後你可以執行你的請求。

+0

我的想法是我將不得不將所有文檔都放入一個帶有類型分類器的索引中,但我仍然不確定其餘部分。即如何匹配標題的相關性。 – Coesy

+0

我不確定要理解,你不知道如何提出請求?如果是這樣,只要做一個匹配查詢,例如[這個例子](https://www.elastic.co/guide/en/elasticsearch/reference/5.6/query-filter-context.html) – user7953086

+0

但是我沒有知道我匹配哪些術語,我需要匹配一個文檔標題與另一個文檔標題的相關性。 如上所述。 「基本上我需要在不知道搜索條件的情況下進行搜索」 – Coesy