0
我想按點和備用數字分割單詞,例如: 「google.com 123」=> [「google」,「com」,「123」 ]需要一個分析器,可以按點分割單詞並保留數字
標準分析器不能由點分開單詞: 「google.com 123」=> [ 「google.com」, 「123」]
簡單分析器過濾器出來的數字: 「谷歌.com 123「=> [」google「,」com「]
謝謝。
我想按點和備用數字分割單詞,例如: 「google.com 123」=> [「google」,「com」,「123」 ]需要一個分析器,可以按點分割單詞並保留數字
標準分析器不能由點分開單詞: 「google.com 123」=> [ 「google.com」, 「123」]
簡單分析器過濾器出來的數字: 「谷歌.com 123「=> [」google「,」com「]
謝謝。
如果您知道要將哪些字符拆分爲令牌,則可以使用pattern tokenizer。您可以指定一個正則表達式來匹配所有'分隔符'。
我不完全知道字符集,圖案標記器可能有點複雜。現在我替換'。'與'。 '在分詞之前,並替換'。 '與'。'在視圖層。 – CreateChen
@CreateChen模式標記可能太複雜了。如果只替換點,可能需要查看[charfilter](https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-pattern-replace-charfilter.html )。這是一個預處理單元,您可以在其中進行替換。那麼它至少都會成爲ES的一部分,而不是整個代碼。 – Slomo