我得看大約20MB
大.csv
。這些文件是由8
列和5198
行組成的表格。我必須對特定列I
做一些統計。Python:這是讀取大型.csv文件的最佳方式?
我有n
不同的文件,這我在做什麼:
stat = np.arange(n)
I = 0
for k in stat:
df = pd.read_csv(pathS+'run_TestRandom_%d.csv'%k, sep=' ')
I+=df['I']
I = I/k ## Average
這個過程需要0.65s
,我不知道是否有一個最快的方法。
也許嘗試在'pd.read_csv'中指定'memory_map = True' –
- 如果數據是專有數字,那麼就不需要使用** csv **模塊。你可以使用** split **。 - 使用字典訪問記錄字段有一些小開銷。您可以改爲在csv頭部使用** find **,然後使用該索引從分割記錄中獲取項目。 –
第一行不是數字,但是可以使用'split'嗎? – emax