4
現在我正在使用CountVectorizer
來提取功能。但是,我需要計算在擬合期間看不到的詞彙。CountVectorizer和詞外(OOV)令牌?
在轉換過程中,CountVectorizer
的默認行爲是忽略在擬合過程中未觀察到的單詞。但我需要保持這種情況發生的次數!
我該怎麼做?
謝謝!
現在我正在使用CountVectorizer
來提取功能。但是,我需要計算在擬合期間看不到的詞彙。CountVectorizer和詞外(OOV)令牌?
在轉換過程中,CountVectorizer
的默認行爲是忽略在擬合過程中未觀察到的單詞。但我需要保持這種情況發生的次數!
我該怎麼做?
謝謝!
scikit-learn沒有內置的方法來做到這一點,你需要編寫一些額外的代碼才能做到這一點。但是,您可以使用CountVectorizer
的vocabulary_
屬性來實現此目的。