2017-03-14 77 views
0

我有這樣的:Gensim和unicode在Python

texts = ['human', 'machine', 'interface'] 

當我這樣做與Gensim:

dictionary = corpora.Dictionary(texts) 

它導致UNICODE添加u'的......我怎麼能抑制這種?

+1

爲什麼?沒有必要壓制它。 Python標記帶有前綴「u」的unicode字符串。 – Dmitry

+1

我不知道它爲什麼困擾你,但是你可以將'str'映射到你的結果上(假設Python 2)。 – timgeb

+0

它令我困擾,因爲它是主題建模腳本的一部分,而且我得到的結果與我所遵循的教程不同,並且假設它是由於某些編碼問題導致空格或'u''s計數爲標記。 – textnet

回答

0

如果您認爲錯誤是因爲unicode,您可以試試這個。

u'whateveryourwtring'.encode('ascii', 'ignore') 
u'aあä'.encode('ascii', 'ignore')