如何獲得特徵預先指定的大尺寸語料庫的tf-idf矩陣？

我有一個包含3,500,000個文本文檔的語料庫。我想構建一個（3,500,000 * 5,000）大小的tf-idf矩陣。這裏我有5000個不同的特徵（單詞）。如何獲得特徵預先指定的大尺寸語料庫的tf-idf矩陣？

我在Python中使用scikitsklearn。我在哪裏使用TfidfVectorizer來做到這一點。我已經構建了5000個大小的字典（每個功能一個）。在初始化TfidfVectorizer時，我正在用參數字典設置參數vocabulary。但在調用fit_transform時，它顯示了一些內存映射，然後顯示了「CORE DUMP」。

TfidfVectorizer對於固定的詞彙表和大型語料庫表現不錯嗎？
如果不是，那麼還有其他的選擇嗎？

來源

2014-04-11 debarghya

答案（1）是「是的，在我的盒子上」。考慮爲此打開一個[問題]（https://github.com/scikit-learn/scikit-learn/issues）。 –

其他選項可以是gensim它在內存方面非常高效，速度非常快。這是您的語料庫的tf-idf教程的link。

來源

2017-06-16 07:10:41

如何獲得特徵預先指定的大尺寸語料庫的tf-idf矩陣？

回答

相關問題