我正在使用Twitter數據,我有一個包含一堆推文的文件,每行一個。這些推文大多是用葡萄牙語寫的,所以他們有特殊字符,如「é」,「á」等。爲什麼我的腳本不能正確打印Unicode字符?
我試圖從文件中過濾停用詞並標記推文,但是在處理我的腳本後沒有正確打印特殊字符。
實施例:
AT_USER PRA concurso檢察署到entrando nessas集會porque emprego BOM TA FODA
變爲:
[u'pra 'u'concurso' ,u'p \ xfablico',u't \ xf4',u'entrando',u'nessas',u'agora',u'porque',u'emprego',u'bom',u't \ xe1 ',u'foda']
爲什麼我在每個令牌之前都有這個「u」?爲什麼「ú」變成「\ xfa」?
我該如何得到沒有「u」的標記並且重音字符正確打印?
在這裏gist您可以檢查文本之前,之後和我用過的腳本。
謝謝:)
u字符串前綴表示* unicode字符串*,而b前綴表示字節字符串*。 '\ xfa'是ascii值爲'FA'的char的編碼。 –
@YotamSalmon但我如何擺脫「u」並正確打印重音字符? – 0x7067
'u'只是當您使用'print(lst)'而不是單獨打印每個元素時Python添加的信息。 – furas