我想製作一個2D二進制數組(n_samples,n_features),其中每個樣本是一個文本字符串,每個要素都是一個單詞(unigram)。如何在python中使用HashingVectorizer時獲取功能名稱?
問題是樣本數量是350000,功能數量是40000,但我的RAM大小隻有4GB。
使用CountVectorizer後出現內存錯誤。那麼,有沒有其他方式(如小批量)來做到這一點?
如果我使用HashingVectorizer,那麼如何獲取feature_names?即哪個列對應哪個特徵?,因爲get_feature_names()方法在HashingVectorizer中不可用。
[哈希技巧](https://en.wikipedia.org/wiki/Feature_hashing)的目的是獲得文本*的合理向量表示,而不存儲特徵名稱。 –