2013-03-27 33 views
5

我有X作爲我公司取得使用scikit的TFIDF矢量化是一個數組csr_matrix,和y如何用csr_matrix初始化gensim語料庫變量?

我的計劃是創建使用LDA的功能,但是,我沒有找到如何初始化gensim的語料庫變量與X作爲csr_matrix。換句話說,我不想下載gensim文檔中顯示的語料庫,也不想將X轉換爲密集矩陣,因爲它會消耗大量內存,並且計算機可能會掛起。

總之,我的問題有以下幾種,

  1. 你如何初始化gensim語料庫因爲我有一個csr_matrix(疏)代表全語料庫?
  2. 你如何使用LDA來提取功能?
+0

我們還可以將術語頻率矩陣傳遞給該方法嗎? – Shashank 2016-11-27 13:07:57

回答

7

Gensim有一個半隱藏良好的功能,你可以種做到這一點:

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

「類gensim.matutils.Sparse2Corpus(稀疏,documents_columns = TRUE) 一個轉換矩陣以scipy.sparse格式轉換爲流式gensim語料庫。「

我已經有一些成功使用與CountVectorizer提取的語料,然後裝入gensim。

+0

感謝萬@Fred,工作就像一個魅力! – Curious 2013-03-29 07:15:28