2017-03-31 59 views
0

我正在嘗試編寫代碼,將從名爲my_file_*.csv的一組CSV中讀取到Dask數據框中。Dask讀取CSV,將分區設置爲CSV長度

然後我想根據CSV的長度設置分區。我試圖在每個分區上映射一個函數,爲了做到這一點,每個分區必須是整個CSV。

我試過重置索引,然後根據每個CSV的長度設置分區,但它看起來像Dask數據幀的索引不是唯一的。

根據每個CSV的長度是否有更好的分區方法?

+0

某些部分是相當不清楚。 「在每個分區上映射一個函數」和「基於csv的長度」? csv的長度是多少行或列或其他什麼? – Steven

回答

1

那麼一個分區應該只包含一個文件? 你冷做:

import dask.dataframe as dd 
ddf = dd.read_csv(my_file_*.csv, blocksize = None) 

塊大小設置爲無可以確保文件不會在幾個分區分割。因此,ddf將是包含每個分區一個文件的dask數據幀。

您可能要檢查出的文檔:

+0

謝謝!這幫助了很多。 – abcdefg