1
我有一種數據分區方式,我只是想在另一個分區。 因此,它基本上會是這樣的:dataFrameWriter分區是否洗刷數據?
sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")
我不知道這是否會引發洗牌或全部數據都將被重新分區本地,因爲在這個背景的分區意味着只是一個目錄在HDFS和數據相同的分區不必在同一個節點上寫入HDFS中的相同目錄。
我應該重新分配什麼來避免這種情況? –