2016-03-21 20 views
0

讓說我索引的字符串值「useridB,userdidC,useridA,useridA useridA」預期行爲一個自定義CharTokenizer,它會查找邊界逗號字符。 索引中的預期行爲是什麼,因爲標記「useridA」在同一個字段內出現多次?的Lucene索引令牌的多次出現時,場內

它只是重新索引相同的值,保留相同的空間,就好像它只是一次發生一樣?

回答

1

在基本級別lucene是一個「反轉項索引」它存儲term-> docID。所以如果一個術語出現很多次,它只會被記錄一次。

顯然這是一個巨大的簡化。位置信息也將根據添加字段時使用的TermVector值進行存儲(您需要使用短語和斜率查詢)。

只取決於你的用例,我建議你在編制索引或者僅僅使用HashSet < string>來爲你的類的任何屬性去重複列表。