2011-04-21 15 views
4

我們有一些包含德文變音符的文本,這些文本使用例如。 'a'+聯合DIAERESIS ($ cc $ 88)。將包含合併視頻的文本轉換爲utf-8

任何想法如何正確地將這些文本轉換爲utf8?

+0

所以你有兩個代碼點,或者你有一些編碼形式?將字符輸出到UTF-8流,並將其編碼。但請參閱Ignacio關於正常化的答案。您可能想要規範化爲NFC。 – tchrist 2011-04-21 18:10:47

回答

4

首先,如果它還不是unicode那麼解碼它。其次,unicodedata.normalize()。第三,編碼。

+0

具體來說,如果您要輸出它,您需要NFC格式。 NFD更經常用於內部。 – tchrist 2011-04-21 18:10:18