2016-10-25 50 views
4

現在我正在使用CountVectorizer來提取功能。但是,我需要計算在擬合期間看不到的詞彙。CountVectorizer和詞外(OOV)令牌?

在轉換過程中,CountVectorizer的默認行爲是忽略在擬合過程中未觀察到的單詞。但我需要保持這種情況發生的次數!

我該怎麼做?

謝謝!

回答

1

scikit-learn沒有內置的方法來做到這一點,你需要編寫一些額外的代碼才能做到這一點。但是,您可以使用CountVectorizervocabulary_屬性來實現此目的。

  1. 緩存當前的詞彙表
  2. 呼叫fit_transform
  3. 計算與新詞彙的diff和緩存的詞彙