2016-08-18 63 views
0

我試圖編寫一個函數,在一個文檔中,計數矢量化該文檔的bigrams。這不應該有任何零,因爲我一次只做一個文檔。然後,我想用這些數字的平均值來得到一個二元重複的感覺。向量化矢量化爲一個文檔的bigrams,然後取平均值

此代碼的任何問題?

def avg_bigram(x): 
    bigram_vectorizer = CountVectorizer(stop_words='english', ngram_range=(2,2)) 
    model = bigram_vectorizer.fit_transform(x) 
    vector = model.toarray() 
    return vector.mean() 

我用,我知道含有比停止的話更多的文本測試它,我回來

「空詞彙;也許文件只包含停用詞」

謝謝你任何幫助!

回答

1

CountVectorizer期望一個語料庫,而您正在給一個文檔。只需將您的文檔包裝在list中即可。例如:

model = bigram_vectorizer.fit_transform([x]) 
+0

非常感謝! – WhitneyChia