我有一個擁有8億行和3列的數據文件。 csv文件大小爲30 GB。通過SQL或R對大數據集進行高效分析?
我需要對數據做一些分析。花費很長時間將其加載到SQL服務器。 此外,花了約10分鐘到一個SQL查詢,如:
SELECT MAX(VALUE) AS max_s
FROM [myDB].[dbo].[myTable]
另外,我需要爲每列做其他的統計分析。
SELECT COUNT(*) as num_rows, COUNT(DISTINCT VARIABLE1) as num_var1 FROM [myDB].[dbo].[myTable]
如果我想提高分析/查詢效率,SQL server或其他工具可以幫我嗎?
R怎麼樣?但是,我的筆記本電腦只有8 GB內存。將整個數據加載到數據框是不可能的。有關數據
更多信息是這裏 get statistics information by SQL query efficiently for table with 3 columns and 800 million rows
一些解決方案已經給出。我真的很感激。但是,我想知道我們是否有更有效的解決方案。
如果你想與大數據,您將需要大箱子(或大的耐心)玩,周圍沒有其他辦法。 –
您是否在表中的列上創建了索引?這會讓事情變得更快。 –
數據文件和csv文件是一樣的嗎? –