2015-11-03 41 views
1

我有一個具有醜陋級別(5000左右)的分類變量的數據集。 當我跑我的代碼轉換爲虛擬變量,它說,它需要的內存22場演出和崩潰R - 轉換爲虛擬變量時內存不足

dmy <- dummyVars(" ~ .", data = num_data) 
new_data <- data.frame(predict(dmy, newdata = num_data)) 

我應該在這種情況下怎麼辦?去尋求雲解決方案? 嘗試優化功能?

+2

使用稀疏模型矩陣?告訴我們更多關於你在做什麼(例如,你有多少觀察)?讓我們知道你正在使用'caret'軟件包? –

+1

好的,所以問題是: - 有一個數據集與零售銷售(按訪問細分) - 每一行都是訪問數量,訪問類型和客戶購買產品類別 - 分類變量(所以有多行訪問類型相同,但類別不同,因爲客戶可能已經在類別中購買了許多產品) - 目標是根據客戶購買產品的類別預測訪問類型 - 有600 000行(大約200 000個訪問)和5000個類別 所以我試圖轉換產品類別變量的機器學習 – Ablomis

+0

你不需要解釋歷史。我們建議您使用sparse.model.matrix,然後使用支持稀疏輸入的'cv.glmnet'函數嘗試'glmnet'包。 –

回答