2013-02-07 23 views
1

我正嘗試將一個大的csv文件(大約18G)加載到rapidminer中以構建分類模型。 「導入配置嚮導」似乎很難加載數據。因此,我選擇使用「編輯參數列表:數據集元數據信息」來設置屬性和標籤信息。但是,UI界面只允許我逐列設置這些信息。我的csv文件大約有80000列。我應該如何處理這種情況?謝謝。將large csv文件加載到rapidminer中的問題

+0

你有64位機器有大量的RAM嗎?如果不是,您將無法處理18G數據集。 –

+0

我在服務器上運行Rapidminer,並使用Java -Xmx 40G爲其分配40G。 – user785099

回答

0

我還沒有嘗試過,但你應該可以將CSV加載到MySQL數據庫中。然後您可以使用流數據庫操作符來避免大小限制。以下是來自RapidMiner的說明:

與將數據加載到主存儲器中的讀數據庫操作符相反,流數據庫操作員將數據保存在數據庫中並批量執行數據讀取。這使得RapidMiner可以訪問任意大小的數據集,而不受任何大小的限制。