你好,我是全新的處理大數據和舒適的python 我有150個csv,每個大小都是70MB,我必須將它集成到一個源文件中,以便刪除基本統計數據,如唯一計數,唯一名稱和所有。將150個csv文件導入到一個數據源中
任何人都可以建議我應該怎麼做呢? 我遇到了python中的'pyyelastic search'軟件包,它對我來說是非常可行的。
需要建議!
你好,我是全新的處理大數據和舒適的python 我有150個csv,每個大小都是70MB,我必須將它集成到一個源文件中,以便刪除基本統計數據,如唯一計數,唯一名稱和所有。將150個csv文件導入到一個數據源中
任何人都可以建議我應該怎麼做呢? 我遇到了python中的'pyyelastic search'軟件包,它對我來說是非常可行的。
需要建議!
嘗試使用pandas
包。
讀一個CSV是:
import pandas as pd
df = pd.read_csv('filelocation.csv')
在多個文件時,只需concat
他們。讓我們說ls
是文件位置的列表,然後:
df = pd.concat([pd.read_csv(f) for f in ls])
,然後把它們寫爲單個文件,這樣做:
df.to_csv('output.csv')
當然
這一切都是有效的內存操作( 70x150 =〜10.5GB RAM)。如果這是不可能的 - 考慮構建一個增量進程或使用數據幀。
一個選項,如果你是在AWS
第一步 - 將數據移動到S3(AWS本地文件存儲) 第二步 - 創建表的紅移 第三步:每個數據結構 - 運行COPY命令從S3移動數據Redshift(AWS native DW)
COPY command loads data in bulk, detects file name pattern