有沒有辦法讀取通過gz壓縮成dask數據幀的.csv文件?如何在一個dask數據框中讀取一個壓縮(gz)CSV文件?
我直接與
import dask.dataframe as dd
df = dd.read_csv("Data.gz")
嘗試過,但得到的Unicode錯誤(可能是因爲它是解釋壓縮字節)有"compression"
參數,但compression = "gz"
不會工作,我無法找到迄今爲止的任何文件。
隨着熊貓我可以直接讀取文件沒有問題,除了結果炸燬我的記憶;-)但如果我限制線數工作正常。
import pandas.Dataframe as pd
df = pd.read_csv("Data.gz", ncols=100)
好,正規的大熊貓(非DASK)讀是好的,沒有任何編碼集,所以我的猜測是,DASK試圖直接讀取壓縮GZ文件爲ASCII文件,變得沒有意義。 – Magellan88