假設我有具有例如多於一個的列表的列表:的Python - 解碼UTF-8表中列出(解碼整個列表對象)
l = [['a'],['a','b'],['c'],['d',['a','b'],'f']]
與此:
l = [x.decode('UTF8') for x in l]
可能我會得到錯誤:列表對象沒有屬性'解碼'
(「l」從標記文本創建的列表,它的每個單詞都創建了列表對象。嘗試了很多克服解碼困難的解決方案,但仍然無法打印非asc二字符)
with open(path, "r") as myfile:
text=myfile.read()
text = word_tokenize(text)
d = [[item] if not isinstance(item, list) else item for item in text]
arr = sum(([[x[0] for x in g]] if k else list(g)
for k, g in groupby(d, key=lambda x: x[0][0].isupper())),
[])
arr = [x.decode('UTF8') for x in arr]
INPUT(我的文本文件):
Çanakkale çok güzel bir şehirdir. Çok beğendik.
OUTPUT:
[[u'\xc7anakkale'], [u'\xe7ok'], [u'g\xfczel'], [u'bir'], [u'\u015fehirdir'], [u'.']. [u'\xe7ok'], [u'be\u011fendik'], [u'.']]
我期望的輸出列表,但酷似我的輸入格式。
你需要保留結構嗎? – Natecat
我覺得所以我有很多非ASCII字符,但我想打印它們的確切結構(單詞包含üğşıç) –
請提供[mcve]和設計輸出 –