2017-05-08 49 views
0

我遇到了一個問題,我想使用託管的Elasticsearch服務,但他們明確沒有我需要的插件。該插件是拼音插件,它提供了一個自定義標記器。我的想法是在插入Elasticsearch之前,在預處理步驟中複製這個標記。將預先標記化的文本插入到Elasticsearch中

舉例來說,如果我叫_analyze?text=%e5%88%98%e5%be%b7%e5%8d%8e&analyzer=pinyin_analyzer我收到輸出

{ 
    "tokens": [ 
    { 
     "token": "ldh", 
     "start_offset": 0, 
     "end_offset": 3, 
     "type": "word", 
     "position": 1 
    }, 
    { 
     "token": "liu", 
     "start_offset": 0, 
     "end_offset": 3, 
     "type": "word", 
     "position": 2 
    }, 
    { 
     "token": "hua", 
     "start_offset": 0, 
     "end_offset": 3, 
     "type": "word", 
     "position": 4 
    } 
    ] 
} 

我有辦法產生一個預處理步驟是這樣的標記,但它可能然後將其插入預分析到Elasticsearch指數?

回答

2

您可以創建一個標記值的數組。效果會一樣。此外,如果您正在進行所有預處理而不僅僅是令牌化,請使用關鍵字字段。否則,您的令牌將再次單獨分析。