0
我想以矢量(.toarray())的形式創建文本文件包的文字表示。我正在使用代碼:檢查輸入文件對照詞彙表的單詞頻率python
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(input="file")
f = open('D:\\test\\45.txt')
bag_of_words = vectorizer.fit_transform([f])
print(bag_of_words)
我想使用countvectorizer的詞彙表進行比較。我有文本文件,我標記並想用它作爲詞彙。怎麼做?
以及如何與其他文本比較? – Masyaf
通過使用python的set操作。 http://www.learnpython.org/en/Sets –