0
我有這樣的:Gensim和unicode在Python
texts = ['human', 'machine', 'interface']
當我這樣做與Gensim:
dictionary = corpora.Dictionary(texts)
它導致UNICODE添加u'
的......我怎麼能抑制這種?
我有這樣的:Gensim和unicode在Python
texts = ['human', 'machine', 'interface']
當我這樣做與Gensim:
dictionary = corpora.Dictionary(texts)
它導致UNICODE添加u'
的......我怎麼能抑制這種?
如果您認爲錯誤是因爲unicode,您可以試試這個。
u'whateveryourwtring'.encode('ascii', 'ignore')
u'aあä'.encode('ascii', 'ignore')
爲什麼?沒有必要壓制它。 Python標記帶有前綴「u」的unicode字符串。 – Dmitry
我不知道它爲什麼困擾你,但是你可以將'str'映射到你的結果上(假設Python 2)。 – timgeb
它令我困擾,因爲它是主題建模腳本的一部分,而且我得到的結果與我所遵循的教程不同,並且假設它是由於某些編碼問題導致空格或'u''s計數爲標記。 – textnet