3
我正在嘗試獲取日語單詞的tf-idf值。 我遇到的問題是sklearn TfidfVectorizer將一些我想保留的日語字符作爲停用詞移除。如何取消激活sklearn的默認停用詞功能TfidfVectorizer
以下爲例子:
from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer(stop_words = None)
words_list = ["歯","が","痛い"]
tfidf_matrix = tf.fit_transform(words_list)
feature_names = tf.get_feature_names()
print (feature_names)
輸出是:['痛い']
不過,我想所有的三個字符保持在列表中。 我相信TfidfVectorizer刪除長度爲1的字符作爲停用詞。 我如何關閉默認停用詞功能並保留所有字符?
是的,它解決了我的問題。謝謝! – Splatnix
不客氣。很高興它有幫助。 – Psidom