supose文件「的test.txt」被編入索引,文件的內容是:如何配置索引,使「word1.word2」被認爲是兩個詞
word1.word2
我應該怎麼做才能讓lucene將「word1.word2」視爲兩個單詞「word1」和「word2」而不是「word1.word2」
supose文件「的test.txt」被編入索引,文件的內容是:如何配置索引,使「word1.word2」被認爲是兩個詞
word1.word2
我應該怎麼做才能讓lucene將「word1.word2」視爲兩個單詞「word1」和「word2」而不是「word1.word2」
這取決於您正在使用哪個Analyzer
。簡短的通用答案是使用使用LetterTokenizer
的SimpleAnalyzer
。 LetterTokenizer
分裂在任何非字母,因此包括點字符。 如果您有更具體的標記化要求,則必須編寫自定義分析儀類,其tokenStream
方法返回自定義TokenStream或Tokenizer對象。
使用分析器的Lucene索引會將您的單詞轉換爲術語的標記(技術上它將單詞轉換爲字段形成一個文件)
基本上你可以
1)創建StopAnalyzer並通過與停用詞一個HashSet作爲「」(句點)這可能對索引不利影響(因爲you must use same analyzer while searching and indexing)
2)分裂。與空間和索引它們