dask csv閱讀順序

2016-11-29 80 views 2 likes

我有一個時間系列，其值存儲在不同的csv中。每個csv都進行排序幷包含一個時間掃描的可變秒數。dask csv閱讀順序

df = dd.read_csv('/home/data/derived/ips_subnets.7days/*') 
df.head() 

      seconds    IP  subnet 
    0 1477252800 Private-10.0.0.0 10.101.15.6 
    1 1477252800 Private-10.0.0.0 10.102.223.2 
    2 1477252800 Private-10.0.0.0 10.104.15.43 
    3 1477252800 Private-10.0.0.0 10.104.5.241 
    4 1477252800 Private-10.0.0.0 10.106.15.26

現在，我怎麼設置的CSV文件應以根據變量seconds讀？

來源

2016-11-29 Donbeo

回答

默認dask.dataframe.read_csv按字母順序讀取文件，所以如果您的文件名遵循標準命名方案，如2016-05-06.csv那麼您應該沒問題。

如果你願意，你可以用dask.delayed進行定製。這裏是一個類似的example notebook。

最後您總是可以打電話df = df.set_index('seconds')，但是這比替代方案慢得多，並且需要對數據進行全面掃描。

來源

2016-12-03 14:07:50 MRocklin

相關問題

11. CSV閱讀爲空
12. 閱讀Csv到namedtuple
13. 閱讀分號csv
14. 閱讀CSV問題
15. 閱讀csv文件
16. Dask讀取CSV，將分區設置爲CSV長度
17. 如何閱讀hadoop順序文件？
18. 閱讀時的數據順序
19. mtl，閱讀器，除了＆堆疊順序
20. Spring按批次順序讀取csv列
21. 閱讀csv的特定列
22. 閱讀CSV - 內存問題
23. csv閱讀舊的方式
24. 閱讀大型csv文件
25. 閱讀大型CSV文件
26. 的iOS閱讀csv文件
27. 打開並閱讀2GB csv
28. 閱讀的CSV結構
29. 問題閱讀csv文件
30. 閱讀CSV與unicodecsv：UnicodeDecodeError錯誤