2012-09-25 44 views
1

我有一個標記文本(拆分句子和拆分詞)。並根據這個結構創建Apache Lucene索引。擴展或替換標準標記器以使用自定義標記的最簡單方法是什麼?我在看StandardTokenizerImpl,但看起來很複雜。可能還有其他方法嗎?apache lucene的自定義標記器4

回答

0

StandardTokenizerImpl很複雜,因爲它是從JFlex語法生成的。

如果你想實現你自己的分詞器,你所需要做的就是擴展Tokenizer類。

例如,WhitespaceTokenizer是一個簡單的標記器,用於在空白處分割令牌。

+0

它不符合索引句子的要求。 –