我測試了寫慢得多:星火partitionBy比沒有它
df.write.partitionBy("id", "name")
.mode(SaveMode.Append)
.parquet(filePath)
但是如果我離開了劃分:(!)
df.write
.mode(SaveMode.Append)
.parquet(filePath)
它執行快100倍。
分區時,相同數據量的數據寫入時間延長了100倍是正常嗎?
有分別爲10和3000獨特id
和name
列值。 DataFrame
有10個額外的整數列。
它會導致洗牌嗎? – Gillespie
涉及多少數據?在強制對它進行分區之前,它可能都適合於一個分區。 –
@Gillespie我怎麼知道? – BAR