考慮這個運行的例子:特殊字符countVectorizer Scikit學習
#coding: utf-8
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
corpus = ['öåa hej ho' 'åter aba na', 'äs äp äl']
x = vectorizer.fit_transform(corpus)
l = vectorizer.get_feature_names()
for u in l:
print u
輸出將是
aba
hej
ho
na
ter
爲什麼AAO去除?請注意,矢量化器strip_accents = None是默認值。如果你能幫助我,我會很感激。
無法重現。你正在使用哪種版本的scikit-learn? –
我用sudo apt-get來下載sklearn。你的錯誤信息是什麼? – user1506145
沒有錯誤信息,它工作得很好。再次,版本是什麼? 'sklearn .__ version__'。 –