2017-09-12 99 views
3

使用Python Pandas讀取CSV時,可以指定索引列。在閱讀文件時是否可以使用Python Dask,而不是之後設置索引?使用Python dask讀取CSV時,可以設置索引列嗎?

例如,使用熊貓:

df = pandas.read_csv(filename, index_col=0) 

理想的情況下使用DASK會是這樣:

df = dask.dataframe.read_csv(filename, index_col=0) 

我已經試過

df = dask.dataframe.read_csv(filename).set_index(?) 

但指數列沒有名稱(這看起來很慢)。

+1

該文檔似乎表明'df = dask.dataframe.read_csv(filename,index_col = 0)'應該像'kwargs'傳遞給'pandas'一樣工作,您是否嘗試過? – EdChum

+0

我確實嘗試過,並且由於下面由MRocklin突出顯示的錯誤而失敗,即'ValueError:Keyword'index'not supported dd.read_csv(...).set_index('my-index')instead' – Jaydog

回答

3

不,這些需要是兩個獨立的方法。如果你嘗試這個,那麼Dask會在一個很好的錯誤信息中告訴你。

In [1]: import dask.dataframe as dd 
In [2]: df = dd.read_csv('*.csv', index='my-index') 
ValueError: Keyword 'index' not supported dd.read_csv(...).set_index('my-index') instead 

但是這樣做不會比以其他方式做得更慢或更快。

相關問題