用於文本規範化的Java庫

是的，我查了一下。默認情況下，它不會做我需要的。我看過Normalizer2（http://icu-project.org/apiref/icu4j/com/ibm/icu/text/Normalizer2.html），它可以配置，但它不是簡單的任務。 – valodzka 2010-11-05 23:04:24

您的具體要求是有點模糊，但我想你想的是做什麼Normalizer做的事情，但隨着功能的某些Unicode代碼點一概而論一個字符 - 類似utf8proc。

我會去一個2步的方法：

首先使用Normalizer.normalize創造一切（去）組成你想
然後通過結果的代碼點迭代，並更換統一字符你喜歡它的方式。

兩者都應該是直截了當的。對於2，如果您正在處理基本多語言窗格以外的字符，則使用appropriate algorithm for doing so遍歷代碼點。如果您只使用BMP代碼點，則只需遍歷字符。

對於您想一概而論，該映射ununified代碼點創建一個替換數據結構中的字符 - >統一代碼點。 Map<Character, Character>或Map<Integer, Integer>想到這一點。根據您的喜好填充替換地圖，例如通過從utf8proc的lump.txt和character categories的來源獲取信息。

Map<Character, Character> LUMP; 

static { 
    LUMP = new HashMap<Character, Character>(); 
    LUMP.put('\u2216', '\\'); // set minus 
    LUMP.put('\u007C', '|'); // divides 
    // ... 
}

創建一個新的StringBuilder或類似的大小與標準化字符串相似。在迭代代碼點時，檢查LUMP.get(codePoint)是否爲非空值。在這種情況下，添加返回的值，否則將代碼點添加到StringBuilder。應該是這樣的。

如果需要，您可以支持從配置中加載LUMP內容的方式，例如，從Properties對象。

來源

2010-11-08 12:04:55

用於文本規範化的Java庫

回答

相關問題