我正在尋求標準化python中的一些unicode文本。我想知道是否有一種簡單的方法來獲取python中unicode字符的「非規範化」形式?例如如果我有序列u'o \ xaf'(即latin small letter o
後跟combining macron
),則獲得ō(latin small letter o with macron
)。這很容易走另一條路:Python「denormalize」unicode組合字符
o = unicodedata.lookup("LATIN SMALL LETTER O WITH MACRON")
o = unicodedata.normalize('NFD', o)
U + 00AF是不結合*長音符號一個*。那是U + 0304。 – kennytm 2010-06-27 09:21:50
'\ xaf'不是組合macron,'\ u0304'是。 – 2010-06-27 09:22:22
oops。當我寫下這個問題時,把數字混合起來:) – Puzzled79 2010-06-27 21:34:01