向量化矢量化爲一個文檔的bigrams，然後取平均值

我試圖編寫一個函數，在一個文檔中，計數矢量化該文檔的bigrams。這不應該有任何零，因爲我一次只做一個文檔。然後，我想用這些數字的平均值來得到一個二元重複的感覺。向量化矢量化爲一個文檔的bigrams，然後取平均值

此代碼的任何問題？

def avg_bigram(x): 
    bigram_vectorizer = CountVectorizer(stop_words='english', ngram_range=(2,2)) 
    model = bigram_vectorizer.fit_transform(x) 
    vector = model.toarray() 
    return vector.mean()

我用，我知道含有比停止的話更多的文本測試它，我回來

「空詞彙;也許文件只包含停用詞」

謝謝你任何幫助！

來源

2016-08-18 WhitneyChia

CountVectorizer期望一個語料庫，而您正在給一個文檔。只需將您的文檔包裝在list中即可。例如：

model = bigram_vectorizer.fit_transform([x])

來源

2016-08-18 01:51:05

非常感謝！ – WhitneyChia

向量化矢量化爲一個文檔的bigrams，然後取平均值

回答

相關問題