2014-01-27 63 views
0

我有一個arff文件,其中包含700 entries,每個42000+ features用於NLP相關項目。現在格式是密集格式,但如果使用稀疏表示法,則條目可以大大減少。 我在core 2 duo machine with 2 GB RAM上運行,並且我得到了memory out of range eception,儘管將限制增加到了1536 MB。weka在一個大的arff數據集文件上運行

如果我將arff文件轉換爲稀疏表示,還是需要在更強大的機器上運行我的代碼,它會有什麼優勢嗎?

回答

1

根據算法的內部數據結構以及數據如何處理(增量式或全部內存),它將需要更多的內存。所以你需要的內存取決於算法。

所以稀疏表示對你來說更容易,因爲它很緊湊,但是,正如我所知,該算法將需要相同數量的內存來創建來自同一數據集的模型。輸入格式應該對算法透明。