1
我使用Lucene有以下過濾器鏈:如何標準化Lucene中的未知字符?
StandardFilter > LowerCaseFilter > GermanNormalizationFilter > ASCIIFoldingFilter
哪些額外的過濾器我必須使用任何未知的字符轉換爲拉丁字母? 例如,像Кадашевская
這樣的俄語字符串,我希望它們或者被轉換爲拉丁字母等價物,或者將它們移除。
哪個過濾器適用於此目的?
目前,過濾器鏈標準化的字符串:我相信ICUTransformFilter
將是一個不錯的選擇???????????