如何配置索引，使「word1.word2」被認爲是兩個詞

supose文件「的test.txt」被編入索引，文件的內容是：如何配置索引，使「word1.word2」被認爲是兩個詞

word1.word2

我應該怎麼做才能讓lucene將「word1.word2」視爲兩個單詞「word1」和「word2」而不是「word1.word2」

來源

2011-03-21 Eugeny89

這取決於您正在使用哪個Analyzer。簡短的通用答案是使用使用LetterTokenizer的SimpleAnalyzer。 LetterTokenizer分裂在任何非字母，因此包括點字符。如果您有更具體的標記化要求，則必須編寫自定義分析儀類，其tokenStream方法返回自定義TokenStream或Tokenizer對象。

來源

2011-03-21 12:57:24

使用分析器的Lucene索引會將您的單詞轉換爲術語的標記（技術上它將單詞轉換爲字段形成一個文件）

基本上你可以

1）創建StopAnalyzer並通過與停用詞一個HashSet作爲「」（句點）這可能對索引不利影響（因爲you must use same analyzer while searching and indexing）

2）分裂。與空間和索引它們

來源

2011-03-21 12:46:51 Narayan

如何配置索引，使「word1.word2」被認爲是兩個詞

回答

相關問題