0
我試圖編寫一個函數,在一個文檔中,計數矢量化該文檔的bigrams。這不應該有任何零,因爲我一次只做一個文檔。然後,我想用這些數字的平均值來得到一個二元重複的感覺。向量化矢量化爲一個文檔的bigrams,然後取平均值
此代碼的任何問題?
def avg_bigram(x):
bigram_vectorizer = CountVectorizer(stop_words='english', ngram_range=(2,2))
model = bigram_vectorizer.fit_transform(x)
vector = model.toarray()
return vector.mean()
我用,我知道含有比停止的話更多的文本測試它,我回來
「空詞彙;也許文件只包含停用詞」
謝謝你任何幫助!
非常感謝! – WhitneyChia