2016-11-29 80 views
2

我有一個時間系列,其值存儲在不同的csv中。 每個csv都進行排序幷包含一個時間掃描的可變秒數。dask csv閱讀順序

df = dd.read_csv('/home/data/derived/ips_subnets.7days/*') 
df.head() 

      seconds    IP  subnet 
    0 1477252800 Private-10.0.0.0 10.101.15.6 
    1 1477252800 Private-10.0.0.0 10.102.223.2 
    2 1477252800 Private-10.0.0.0 10.104.15.43 
    3 1477252800 Private-10.0.0.0 10.104.5.241 
    4 1477252800 Private-10.0.0.0 10.106.15.26 

現在,我怎麼設置的CSV文件應以根據變量seconds讀?

回答

1

默認dask.dataframe.read_csv按字母順序讀取文件,所以如果您的文件名遵循標準命名方案,如2016-05-06.csv那麼您應該沒問題。

如果你願意,你可以用dask.delayed進行定製。這裏是一個類似的example notebook

最後您總是可以打電話df = df.set_index('seconds'),但是這比替代方案慢得多,並且需要對數據進行全面掃描。