我使用Python NLTK標記了一些unicode文本。 問題在於文本來自嚴重編碼的數據源,並且未指定編碼。經過一番弄亂之後,我發現文本必須是UTF-8格式。 鑑於輸入字符串:Python中的另一個unicode混亂
s = u"The problem isn’t getting to Huancavelica from Huancayo to the north."
我想處理它與NLTK,例如用於詞性標註,但特殊字符不解決,我得到的輸出,如:
The/DT problem/NN isn’t/NN getting/VBG
相反的:
The/DT problem/NN isn't/VBG getting/VBG
如何從這些特殊字符中清除文本?
感謝您的任何反饋,
Mulone
更新:如果我運行HTMLParser().unescape(s)
,我得到:
u'The problem isn\u2019t getting to Huancavelica from Huancayo to the north.'
在其他情況下,我還是得到像&
和
在文本。 我需要做些什麼才能將其轉化爲NLTK能夠理解的內容?
不,您的示例輸入文本完全由您的碼。我沒有看到任何'....;'逃離左邊。你的示例文本是什麼*你的方法返回* – 2013-04-11 11:02:42
其實我將文本存儲在一個文件中,寫入一個XML文件,然後再次讀取,所有這些都使用lxml。 – Mulone 2013-04-11 11:06:18
嘗試類似'txt = lec.decode('utf8')。encode('latin9')' – 2013-04-11 11:26:15