2011-11-08 48 views
13

我有一個二進制文件。該文件包含一個UTF-8字符串。而且,保證這個字符串只是一個單詞。 在python中,我怎樣才能得到這個字符串中的字母數?python獲取unicode字符串大小

比方說,我打開這個文件並讀取的字節:

bytes = open("1.dat", "rb").read() 

下一步有我做找出長度(字母,而不是字節)UTF-8字符串的?

+0

「它保證這個字符串只是一個單詞」的相關性是什麼? –

+2

不要以二進制模式打開文件。用'codecs.open'打開它並給它一個編碼參數。問題解決了。 – tchrist

回答

28
unicode_string = bytes.decode("utf-8") 
print len(unicode_string) 
+2

在Python 3中,可以設置'bytes = len(open('1.dat',encoding ='utf-8')。read())' – Cito

相關問題