0
我想讀取3年的數據文件(每個日期一個),而且我感興趣的部分通常很小(總計約140萬行),與父代相比文件(每個約90MB和150萬行)。以下代碼在過去使用較少的文件對我來說非常有用。但是要處理1095個文件,它正在爬取(大約需要3-4秒才能讀取一個文件)。任何建議使這個更高效/更快?將多個csv文件有效地讀入熊貓數據框
import pandas as pd
from glob import glob
file_list = glob(r'C:\Temp2\dl*.csv')
for file in file_list:
print(file)
df = pd.read_csv(file, header=None)
df = df[[0,1,3,4,5]]
df2 = df[df[0].isin(det_list)]
if file_list[0]==file:
rawdf = df2
else:
rawdf = rawdf.append(df2)
你可以指定'dtypes'列 – DJK
感謝,@ djk47463:最後的DF有4個整數和1個日期時間字段。這會提高閱讀/處理速度嗎? – ram