2017-06-16 108 views
1

你好,我是全新的處理大數據和舒適的python 我有150個csv,每個大小都是70MB,我必須將它集成到一個源文件中,以便刪除基本統計數據,如唯一計數,唯一名稱和所有。將150個csv文件導入到一個數據源中

任何人都可以建議我應該怎麼做呢? 我遇到了python中的'pyyelastic search'軟件包,它對我來說是非常可行的。

需要建議!

回答

0

嘗試使用pandas包。

讀一個CSV是:

import pandas as pd 
df = pd.read_csv('filelocation.csv') 

在多個文件時,只需concat他們。讓我們說ls是文件位置的列表,然後:

df = pd.concat([pd.read_csv(f) for f in ls]) 

,然後把它們寫爲單個文件,這樣做:

df.to_csv('output.csv') 
當然

這一切都是有效的內存操作( 70x150 =〜10.5GB RAM)。如果這是不可能的 - 考慮構建一個增量進程或使用數據幀。

0

一個選項,如果你是在AWS

第一步 - 將數據移動到S3(AWS本地文件存儲) 第二步 - 創建表的紅移 第三步:每個數據結構 - 運行COPY命令從S3移動數據Redshift(AWS native DW)

COPY command loads data in bulk, detects file name pattern