0
我有一個輸入A,我將其轉換爲散佈在羣集中的rdd X。火花處理數據混洗嗎?
我對它執行某些操作。
然後我在輸出rdd上做.repartition(1)
。
我的輸出rdd是否與輸入A的順序相同。
火花會自動處理這個嗎?如果是,那麼如何?
我有一個輸入A,我將其轉換爲散佈在羣集中的rdd X。火花處理數據混洗嗎?
我對它執行某些操作。
然後我在輸出rdd上做.repartition(1)
。
我的輸出rdd是否與輸入A的順序相同。
火花會自動處理這個嗎?如果是,那麼如何?
該文件不能保證訂單將被保留,所以你可以認爲它不會。如果你看一下實現,你會看到它肯定不會(除非你原來的RDD已經因爲某些原因1分):repartition
調用coalesce(shuffle = true)
,這
Distributes elements evenly across output partitions, starting from a random partition.
會是什麼你做到了嗎?爲什麼要將數據重新分區到單個分區? –
@YuvalItzchakov必須在單個文件中打印輸出。 – Azrael