2014-07-02 59 views
1

我試圖在構成「組合」字符(例如,لا)的不同單個字符中轉換「組合阿拉伯字符」(如لا)。我無法在JAVA或C#中執行此操作,因爲我需要拆分完整的字符列表。我試圖得到Unicode字符,將其轉換爲Windows-1256等待得到2個3字節,這是個別字符和組合字符使用,但我不能夠做到這一點。在單個字符中拆分組合阿拉伯字符

String unicodeWord = (char)sc; 
byte[] arabicBytes = System.Text.Encoding.GetEncoding(1256).GetBytes(unicodeWord); 

但是結果總是?

你能幫我嗎?我沒有問題使用Java或C#。

非常感謝!

+0

重要提示:您不是在*字節*之後;你在*字符之後* - 因此這不是一個*編碼*問題,而是一個*規範化問題。 –

回答

1
string input = "ﻼ"; 
string normalized = input.Normalize(NormalizationForm.FormKC); 

請注意,有different normalization forms有不同的結果; FormKC結果在ل和ا