我使用TfidfVectorizer從scikit學習提取特徵, 且該設置:如何在scikit-learn中修復令牌模式?
def tokenize(text):
tokens = nltk.word_tokenize(text)
stems = []
for token in tokens:
token = re.sub("[^a-zA-Z]","", token)
stems.append(EnglishStemmer().stem(token))
return stems
矢量化= TfidfVectorizer(標記生成器=記號化,小寫=真,STOP_WORDS = '英語')
後餵養訓練集來向量化,我叫
vectorizer.get_feature_names()
輸出包含空格一些重複的話:如
u'', u' ', u' low', u' lower', u'lower', u'lower ', u'lower high', u'lower low'
而且可接受的輸出應該是:
u'low', u'lower', u'lower high', u'lower low'
我怎樣才能解決呢?謝謝。
什麼是你的輸入? – 2015-02-12 03:23:49
輸入是鳴叫從stocktwits.com一堆裏面包含了很多俚語 – James 2015-02-12 03:26:43
在'tokenize'功能'stems'列表是一個局部變量,出生並與函數的每次調用死亡。爲什麼你打算根本建立這個清單?它不可能用於任何目的。 – 2015-02-12 03:36:27