將150個csv文件導入到一個數據源中

你好，我是全新的處理大數據和舒適的python 我有150個csv，每個大小都是70MB，我必須將它集成到一個源文件中，以便刪除基本統計數據，如唯一計數，唯一名稱和所有。將150個csv文件導入到一個數據源中

任何人都可以建議我應該怎麼做呢？我遇到了python中的'pyyelastic search'軟件包，它對我來說是非常可行的。

需要建議！

嘗試使用pandas包。

讀一個CSV是：

import pandas as pd 
df = pd.read_csv('filelocation.csv')

在多個文件時，只需concat他們。讓我們說ls是文件位置的列表，然後：

df = pd.concat([pd.read_csv(f) for f in ls])

，然後把它們寫爲單個文件，這樣做：

df.to_csv('output.csv')

當然

這一切都是有效的內存操作（ 70x150 =〜10.5GB RAM）。如果這是不可能的 - 考慮構建一個增量進程或使用數據幀。

2017-06-16 11:38:54 Dimgold

一個選項，如果你是在AWS

第一步 - 將數據移動到S3（AWS本地文件存儲）第二步 - 創建表的紅移第三步：每個數據結構 - 運行COPY命令從S3移動數據Redshift（AWS native DW）

COPY command loads data in bulk, detects file name pattern

2017-06-16 11:37:29

回答