0
我已經很稀疏數據集屬性(〜12K個功能和700K記錄)的數量龐大,我不能在內存中適合它(屬性值是二項式即真/假),決策樹 - 稀疏數據集
由於它是稀疏我保持在(ID,功能)格式的數據集,因此,例如我將具有以下記錄:
(ID,功能)
(110,d_0022)
(110,d_2393)
( 110,i_2293)
(822,d_933)
(822,p_2003)
....
所以我們將有三個屬性值爲真(d_0022; 2_2393; i_2293)爲ID爲110的記錄,其餘爲假(屬性均爲屬性「特徵」的所有不同值)
是否有任何可用軟件實現算法以在這種數據集上訓練數據集我不首先創建整個數據集?
(目前我使用rapidminer)