0
我正在嘗試編寫代碼,將從名爲my_file_*.csv
的一組CSV中讀取到Dask數據框中。Dask讀取CSV,將分區設置爲CSV長度
然後我想根據CSV的長度設置分區。我試圖在每個分區上映射一個函數,爲了做到這一點,每個分區必須是整個CSV。
我試過重置索引,然後根據每個CSV的長度設置分區,但它看起來像Dask數據幀的索引不是唯一的。
根據每個CSV的長度是否有更好的分區方法?
我正在嘗試編寫代碼,將從名爲my_file_*.csv
的一組CSV中讀取到Dask數據框中。Dask讀取CSV,將分區設置爲CSV長度
然後我想根據CSV的長度設置分區。我試圖在每個分區上映射一個函數,爲了做到這一點,每個分區必須是整個CSV。
我試過重置索引,然後根據每個CSV的長度設置分區,但它看起來像Dask數據幀的索引不是唯一的。
根據每個CSV的長度是否有更好的分區方法?
那麼一個分區應該只包含一個文件? 你冷做:
import dask.dataframe as dd
ddf = dd.read_csv(my_file_*.csv, blocksize = None)
塊大小設置爲無可以確保文件不會在幾個分區分割。因此,ddf
將是包含每個分區一個文件的dask數據幀。
您可能要檢查出的文檔:
read_csv
謝謝!這幫助了很多。 – abcdefg
某些部分是相當不清楚。 「在每個分區上映射一個函數」和「基於csv的長度」? csv的長度是多少行或列或其他什麼? – Steven