2
我有一個包含3,500,000個文本文檔的語料庫。我想構建一個(3,500,000 * 5,000)大小的tf-idf矩陣。這裏我有5000個不同的特徵(單詞)。如何獲得特徵預先指定的大尺寸語料庫的tf-idf矩陣?
我在Python中使用scikit
sklearn
。我在哪裏使用TfidfVectorizer
來做到這一點。我已經構建了5000個大小的字典(每個功能一個)。在初始化TfidfVectorizer
時,我正在用參數字典設置參數vocabulary
。但在調用fit_transform
時,它顯示了一些內存映射,然後顯示了「CORE DUMP」。
TfidfVectorizer
對於固定的詞彙表和大型語料庫表現不錯嗎?- 如果不是,那麼還有其他的選擇嗎?
答案(1)是「是的,在我的盒子上」。考慮爲此打開一個[問題](https://github.com/scikit-learn/scikit-learn/issues)。 –