我正在尋找一種方法來刪除文本中的diacritics和其他字母標記,並將其簡化爲適合文本搜索索引的方式。簡化字符串的通用方法,刪除變音符號
爲了去除變音符號,我已經找到了這些:
我想知道一個通用的解決方案,與語言無關。 (另外,這個參考列表可能是一些有用的。)
刪除變音符號適用於äöüò等,但我也想:
- O→Ø
- Я→[R
- Ł →L
- ɲ→ň
- æ→一個(也有可能是 「AE」 但對我來說, 「一」 更有意義,因爲我也想用 「A」 來取代 「AE」)
例如,我想索引名稱Røyksopp,有時也會以簡化名稱Royksopp作爲Röyksopp出現。或者Kozen應該是KoRn。
我剛剛發現:有兩個Я:CYRILLIC SMALL LETTER YA(U + 044F)和LA'LATIN LETTER小資本反轉R'(U + 1D19)。也許我應該在我的搜索索引中包含幾個變體。 – Albert
僅供參考:'uconv'位於'icu4c' Homebrew軟件包中,但必須手動鏈接到/ usr/local/bin([source](https://apple.stackexchange.com/questions/201590/uconv-on-mac) -os-x-anywhere)) – nloveladyallen
這不是原來的問題,但是在包含不帶字母的變音符的輸入上失敗,如'''(急性重音)和''(變音/分音) – nloveladyallen