2014-04-11 81 views
2

我有一個包含3,500,000個文本文檔的語料庫。我想構建一個(3,500,000 * 5,000)大小的tf-idf矩陣。這裏我有5000個不同的特徵(單詞)。如何獲得特徵預先指定的大尺寸語料庫的tf-idf矩陣?

我在Python中使用scikitsklearn。我在哪裏使用TfidfVectorizer來做到這一點。我已經構建了5000個大小的字典(每個功能一個)。在初始化TfidfVectorizer時,我正在用參數字典設置參數vocabulary。但在調用fit_transform時,它顯示了一些內存映射,然後顯示了「CORE DUMP」。

  1. TfidfVectorizer對於固定的詞彙表和大型語料庫表現不錯嗎?
  2. 如果不是,那麼還有其他的選擇嗎?
+0

答案(1)是「是的,在我的盒子上」。考慮爲此打開一個[問題](https://github.com/scikit-learn/scikit-learn/issues)。 –

回答

0

其他選項可以是gensim它在內存方面非常高效,速度非常快。 這是您的語料庫的tf-idf教程的link