2017-10-16 71 views
0

我只是想爲什麼Dask沒有閱讀CSV?

import dask.dataframe as dd 
df = dd.read_csv("data.csv") 
print(df.describe()) 

這給

Dask DataFrame Structure: 
       SOME_COL FOO   BAR 
npartitions=1     float64  float64  float64 
       ...   ...   ... 
Dask Name: describe, 1234 tasks 

有兩個問題:

  1. 我覺得沒有什麼做,因爲這是一個4GB的CSV文件,因此應該至少需要幾秒鐘的時間才能讀取,但打印立即發生。
  2. 我希望得到最小值,25%,中值,75%和最大值,但沒有顯示這些描述值。

什麼問題?

回答

1

默認情況下Dask.dataframe是懶惰的。當你想要一個真正的答案時,你需要撥打.compute()

print(df.describe().compute())