我做我在語言學項目(語言爲馬拉雅拉姆語),從每個項目的整數和統一碼。提取列表
我的目錄是
x= [u'1\u0d30\u0d3e\u0d2e\u0d28\u0d4d\u200d', u'5\u0d05\u0d35\u0d28\u0d4d\u200d']
我想提取從列表中每個項目的整數和統一碼。
預期的輸出是
1 \u0d30\u0d3e\u0d2e\u0d28\u0d4d\u200
5 \u0d05\u0d35\u0d28\u0d4d\u200d
首先我試圖到第一項x [0]轉換成ASCII
print unicodedata.normalize('NFKD',x[0]).encode('ascii','ignore')
輸出爲1。
我認爲產生這種輸出,因爲在列表中的Unicode是馬拉雅拉姆語。
然後我試圖找到這樣發生的「\ U」狀
x[0].index("\u")
錯誤的第一指標。
看看這裏蟒'更多信息repr'功能:HTTP:// stackove rflow.com/questions/7784148/understanding-repr-function-in-python – jayelm