我一直在使用木槌推斷包含100,000行(大約34 MB木槌格式)的文本文件的主題。但是現在我需要在包含一百萬行(大約180MB)的文件上運行它,並且得到一個java.lang.outofmemory異常。有沒有辦法將文件分割成更小的文件,併爲所有文件中的數據組合起來構建模型? 由於事先木槌主題建模
Q
木槌主題建模
6
A
回答
1
我不知道馬利特的可擴展性,大數據,但項目http://dragon.ischool.drexel.edu/可以存儲在磁盤備份持續它的數據,因此可以擴展到無限的語料規模(當然是低性能)
1
即使從多個文件中讀取模型,該模型仍然會非常龐大。你有沒有嘗試增加你的Java虛擬機的堆大小?
0
鑑於當前PC的內存大小,應該很容易使用大到2GB的堆。 在考慮使用羣集之前,您應該嘗試單機解決方案。
1
java.lang.outofmemory異常發生的主要原因是堆空間不足。 您可以使用-Xms和-Xmx來設置堆空間,以便它不會再次出現。
6
在斌此行/ mallet.bat增加值:
set MALLET_MEMORY=1G
相關問題
- 1. 木槌主題建模 - 主題鍵輸出參數
- 2. 使用槌子建模的主題
- 3. 木槌下載問題
- 4. 無法運行槌主題模型
- 5. 如何使用木槌獲得文字 - 主題概率
- 6. 如何使用木槌提取主題關鍵短語
- 7. 木槌訓練模型負載
- 8. 主題建模槌:如何解釋相對熵
- 9. typeTopicCounts功能的主題建模實施槌子API
- 10. hLDA的木槌推理器
- 11. 木槌構圖文件中的null-sources
- 12. 如何在木槌中使用--use-ngrams
- 13. 推斷與槌主題,使用保存的話題狀態
- 14. 如何讓主題的詞的概率槌
- 15. 如何獲得每個主題的概率槌
- 16. 將txt文件導入木槌時發生錯誤
- 17. 示例使用木槌(機器學習語言工程)
- 18. R中的主題建模
- 19. 在槌
- 20. 充分利用LDA模型字話題矩陣槌
- 21. 創建主幹木偶旋轉木馬查看
- 22. 創建自定義模式爲我的數據集在槌
- 23. 使用與槌
- 24. R中的LDA和主題建模 - 主題,單詞和概率
- 25. Mallet中的空主題LDA主題建模
- 26. 主題建模 - 爲主題分配人員可讀標籤
- 27. 主題建模:LDA,詞頻每個主題和Wordcloud
- 28. 瞭解LDA /主題建模 - 太多的主題重疊
- 29. 未能創建從Sunburst主題模板化的Plone主題
- 30. 用於Python中主題建模的LDA
它看起來像龍Toolkit是死的,但。自2007年以來沒有任何活動。此外,尚不清楚它使用的是什麼許可證(商業發展是否允許?) – chaostheory 2011-05-18 14:00:38