將預先標記化的文本插入到Elasticsearch中

我遇到了一個問題，我想使用託管的Elasticsearch服務，但他們明確沒有我需要的插件。該插件是拼音插件，它提供了一個自定義標記器。我的想法是在插入Elasticsearch之前，在預處理步驟中複製這個標記。將預先標記化的文本插入到Elasticsearch中

舉例來說，如果我叫_analyze?text=%e5%88%98%e5%be%b7%e5%8d%8e&analyzer=pinyin_analyzer我收到輸出

{ 
    "tokens": [ 
    { 
     "token": "ldh", 
     "start_offset": 0, 
     "end_offset": 3, 
     "type": "word", 
     "position": 1 
    }, 
    { 
     "token": "liu", 
     "start_offset": 0, 
     "end_offset": 3, 
     "type": "word", 
     "position": 2 
    }, 
    { 
     "token": "hua", 
     "start_offset": 0, 
     "end_offset": 3, 
     "type": "word", 
     "position": 4 
    } 
    ] 
}

我有辦法產生一個預處理步驟是這樣的標記，但它可能然後將其插入預分析到Elasticsearch指數？

來源

2017-05-08 Brian Ecker

您可以創建一個標記值的數組。效果會一樣。此外，如果您正在進行所有預處理而不僅僅是令牌化，請使用關鍵字字段。否則，您的令牌將再次單獨分析。

來源

2017-05-08 08:07:05 krrish

將預先標記化的文本插入到Elasticsearch中

回答

相關問題