1
我有一個標記文本(拆分句子和拆分詞)。並根據這個結構創建Apache Lucene索引。擴展或替換標準標記器以使用自定義標記的最簡單方法是什麼?我在看StandardTokenizerImpl,但看起來很複雜。可能還有其他方法嗎?apache lucene的自定義標記器4
我有一個標記文本(拆分句子和拆分詞)。並根據這個結構創建Apache Lucene索引。擴展或替換標準標記器以使用自定義標記的最簡單方法是什麼?我在看StandardTokenizerImpl,但看起來很複雜。可能還有其他方法嗎?apache lucene的自定義標記器4
StandardTokenizerImpl很複雜,因爲它是從JFlex語法生成的。
如果你想實現你自己的分詞器,你所需要做的就是擴展Tokenizer類。
例如,WhitespaceTokenizer是一個簡單的標記器,用於在空白處分割令牌。
它不符合索引句子的要求。 –