我有索引數據庫的Solr。在我的數據庫中,所有數據都是拉脫維亞語。問題是,我需要能夠搜索單詞里加,就好像它是單詞里加。當然,我可以定義同義詞 - 里加=里加,但我可以定義,那個字母ī是字母i?我讀了一些關於solr.ISOLatin1AccentFilterFactory,但據我瞭解,這不是UTF-8編碼,對吧?建議?Solr - 字符替換
1
A
回答
2
使用帶有索引和查詢的PatternReplaceFilterFactory。似乎是正確的。
1
ISOLatin1AccentFilterFactory正是您在尋找的內容......只要拉丁語-1字符集中的重音EXISTS(UTF-8的低7位與拉丁-1相同)即可。您提到的ī似乎不存在於ISO-8859-1中,因此ISOLatin1AccentFilterFactory在此特定情況下不起作用。我仍然建議您除了使用PatternReplaceFilterFactory處理的任何異常外,還使用ISOLatin1AccentFilterFactory,因爲可能有一些拉脫維亞字符會幫助它(假設,我沒有拉脫維亞的經驗)
僅供參考,我確實嘗試過使用ISOLatin1AccentFilterFactory來對付我的Solr設置,並沒有幫助這種情況。
1
查看ICUTokenizerFactory,它提供Unicode字符規範化。非常有用,非常簡單。
http://lucene.apache.org/solr/api/org/apache/solr/analysis/ICUTokenizerFactory.html
相關問題
- 1. python替換字符而不替換已替換的字符
- 2. 用_符號替換Solr停用詞
- 3. 替換「^」字符
- 4. 替換字符
- 5. 替換字符
- 6. 替換字符
- 7. 替換字符
- 8. 字符替換
- 9. 替換SOLR輸出字段值
- 10. Solr的字段替換查詢
- 11. 替換字符串字符
- 12. 字符串替換交替
- 13. 增強字符串替換不會替換換行字符串
- 14. Chrome字符替換
- 15. 替換字符串
- 16. 替換字符串
- 17. 字符串替換
- 18. Unicode替換字符
- 19. 替換字符串
- 20. 替換字符的
- 21. 替換字符串
- 22. php替換字符
- 23. 替換多字符
- 24. 替換字符串
- 25. 替換字符串
- 26. C++字符替換
- 27. 替換Unicode字符
- 28. 替換字符串[]
- 29. 替換字符串
- 30. 替換字符串