2011-03-21 24 views

回答

0

這取決於您正在使用哪個Analyzer。簡短的通用答案是使用使用LetterTokenizerSimpleAnalyzerLetterTokenizer分裂在任何非字母,因此包括點字符。 如果您有更具體的標記化要求,則必須編寫自定義分析儀類,其tokenStream方法返回自定義TokenStreamTokenizer對象。

1

使用分析器的Lucene索引會將您的單詞轉換爲術語的標記(技術上它將單詞轉換爲字段形成一個文件)

基本上你可以

1)創建StopAnalyzer並通過與停用詞一個HashSet作爲「」(句點)這可能對索引不利影響(因爲you must use same analyzer while searching and indexing

2)分裂。與空間和索引它們

相關問題