我有一個大型的數據集,我在R中使用一些big.___()
軟件包。這是〜10場演唱會(100mmR X 15C),看起來像這樣:R biglm與分類變量
Price Var1 Var2
12.45 1 1
33.67 1 2
25.99 3 3
14.89 2 2
23.99 1 1
... ... ...
我試圖預測基於VAR1和VAR2價格。
我提出的問題是Var1和Var2是分類/因子變量。
VAR1和VAR2各自具有3個級別(1,2和3),但只有6在數據組合設置
(1,1; 1,2; 1,3; 2,2; 2,3; 3,3)
要使用因子變量biglm()
它們必須存在於每個數據塊有一些biglm
使用(我的理解是,biglm
將數據集分爲'x'個塊,並在分析每個塊後更新迴歸參數,以便處理大於RAM的數據集)。
我試圖子集數據,但我的電腦無法處理或我的代碼是錯誤的:
bm11 <- big.matrix(150000000, 3)
bm11 <- subset(x, x[,2] == 1 & x[,3] == 1)
上面給了我這些一堆:
Error: cannot allocate vector of size 1.1 Gb
不任何人有任何建議來解決這個問題?
我在帶有4個RAM的Windows 7機器上使用R 64位。
您可以自己創建傻瓜並在其上運行'biglm'嗎? –
@ gsk3:這是我在意識到他們需要出現在每個塊之前所做的。我成功地運行biglm,然後在嘗試預測新值時收到錯誤消息,但它們並不全部出現在迴歸參數中。 – screechOwl