一般斯威夫特是真的智能計數字形集羣作爲一個單一的字符。如果我想打一個黎巴嫩國旗,例如,我可以將兩者結合起來的Unicode字符 U + 1F1F1區域指標符號字母L U + 1F1E7區域指標符號字母B 並預期這是斯威夫特一個字符: let s = "\u{1f1f1}\u{1f1e7}"
assert(s.characters.count == 1)
assert(s.utf16.count
我正在爲Unicode文本編寫一個詞法分析器。許多Unicode字符需要多個代碼點(即使在規範組合之後)。例如,tuple(map(ord, unicodedata.normalize('NFC', 'ā́')))評估爲(257, 769)。我怎麼知道兩個角色之間的界限?另外,我想存儲文本的非標準化版本。我的輸入保證是Unicode。 到目前爲止,這是我所: from unicodedata im