0
我有一個從csv加載的數據框,大約5.4 GB,包含210列 和大約200000行。加速spark數據框任務?
我跑了數據幀此功能:
cnts = (df.select([countDistinct(c).alias(c) for c in df.columns]).first().asDict())
我的系統有32GB的內存,這個任務是太慢,顯示周圍13.5小時任務時間,這正常嗎? 或者,我做錯了什麼,我們可以加快一點? 這是一個獨立安裝的用於POC的windows服務器上的spark。
您是否在請求之前使用df.persist()?你的機器上有多少核心? 8?您可以嘗試增加分區數量並激活壓縮。 – GwydionFR
是的,我做了,它顯示了8個核心。如何激活壓縮? –
請參閱spark.rdd.compress \t參數。哦,你使用分佈式文件系統還是標準文件系統(例如ext4,ntfs ...) – GwydionFR