2013-01-05 68 views
0

我已經很稀疏數據集屬性(〜12K個功能和700K記錄)的數量龐大,我不能在內存中適合它(屬性值是二項式即真/假),決策樹 - 稀疏數據集

由於它是稀疏我保持在(ID,功能)格式的數據集,因此,例如我將具有以下記錄:
(ID,功能)
(110,d_0022)
(110,d_2393)
( 110,i_2293)
(822,d_933)
(822,p_2003)
....

所以我們將有三個屬性值爲真(d_0022; 2_2393; i_2293)爲ID爲110的記錄,其餘爲假(屬性均爲屬性「特徵」的所有不同值)

是否有任何可用軟件實現算法以在這種數據集上訓練數據集我不首先創建整個數據集?

(目前我使用rapidminer)

回答

1

您可以使用R的稀疏矩陣(example)或WekaSparseIstance(甚至BinarySparseInstance)。如果稀疏矩陣仍然不適合內存,則可以使用Mahout和Amazon EC2上的小羣集來運行SVD,從而減少矩陣的尺寸,以便正常處理它們。

我幾乎沒有RapidMiner的經驗,但可能它也有一些稀疏矩陣的實現。