0
A
回答
1
在閱讀dask中的csv文件時,出現錯誤無法識別正確的列的dtype。
例如,我們讀取使用DASK如下csv文件:
import dask.dataframe as dd
df = dd.read_csv('\data\file.txt', sep='\t', header='infer')
這促使上述錯誤。
要解決此問題,請按照此評論上的@mrocklin建議的https://github.com/dask/dask/issues/1166,我們需要確定列的dtype。我們可以通過閱讀熊貓中的csv文件並識別數據類型並在使用dask讀取csv時將其作爲參數傳遞。
df_pd = pd.read_csv('\data\file.txt', sep='\t', header='infer')
dt = df_pd.dtypes.to_dict()
df = dd.read_csv('\data\file.txt', sep='\t', header='infer', dtype=dt)
相關問題
- 1. Dask DataFrame Groupby分區
- 2. Dask:在Dataframe組上的nunique方法通過
- 3. 將Python Dask系列轉換爲列表或用於循環的Dask DataFrame
- 4. DASK錯誤:值的長度不符合指標
- 5. DataFrame到LabeledPoint:df.collect()錯誤
- 6. 內存錯誤在DASK陣列
- 7. Dask在Groupby上覆制Pandas值計數
- 8. 瞭解Dask關於DataFrame操作的分佈式行爲
- 9. 將HDF文件加載到Python Dask DataFrame的列表中
- 10. 如何重命名一個Dask Dataframe的索引
- 11. 星火SQL Dataframe- java.lang.ArrayIndexOutOfBoundsException錯誤
- 12. Spark DataFrame映射錯誤
- 13. Spark寫DataFrame出jdbc錯誤
- 14. 如何從網址列表創建Dask DataFrame?
- 15. 如何在Dask中有效地從DataFrame轉換爲多個Series?
- 16. Dask:通過索引從Dataframe中刪除(或丟棄)行
- 17. Python Dask - dataframe.map_partitions()返回值
- 18. Filll在Pandas Dataframe中的缺失值錯誤
- 19. DASK Sheduler
- 20. DASK包成DASK數據幀的列
- 21. scala.collection.immutable.Iterable [org.apache.spark.sql.Row]到DataFrame?錯誤:重載方法值createDataFrame替代品
- 22. Dask - 搜索匹配值的行
- 23. 紅移來DASK數據幀
- 24. 的Python DASK - 2個DataFrames
- 25. PHP PDO空值返回值上的分段錯誤錯誤
- 26. 在浮點值列上合併pandas DataFrame
- 27. flatMap in dask
- 28. DASK,創建幾個DASK陣列
- 29. 使用dask提交任務時出現pickle錯誤
- 30. 錯誤而導出DASK數據幀到csv
您可以通過提供[mcve](http://stackoverflow.com/help/mcve)來幫助嗎? – MRocklin
@多克林,非常感謝你的幫助。我通過回答這個帖子找到了解決問題的方法:https://github.com/dask/dask/issues/1166 –
@MRocklin,錯誤來自於推斷數據類型,所以我做的是讓熊貓首先閱讀csv文件,獲取正確的dtype並將其用於dask read_csv。但是,當我們處理更大的數據集時,這可能並不總是有用。 –