2017-07-05 30 views
0

在以前的版本中,有一個名爲的配置spark.shuffle.manage它用於確定Spark中shuffle算法的類型。自Spark 2.0以來,該配置被刪除。默認的洗牌算法是基於排序的。根據我的理解,只有在滿足所有要求的情況下,鎢洗牌纔會啓用。我如何知道當前作業是使用原始的基於排序的隨機播放還是鎢排序?如何在Spark 2.1中啓用鎢排序洗牌?

非常感謝。

回答

1

報價SortShuffleManager — The Default (And Only) Sort-Based Shuffle System

SortShuffleManager是短名稱sorttungsten-sort Spark中獨一無二ShuffleManager。

換句話說,有沒有辦法,你可以使用任何其他ShuffleManager但SortShuffleManager(除非你使用spark.shuffle.manager財產啓用一個)。

+1

哇,你是Mastering Spark的作者!筆記幫助我很多!我很激動,你可以回覆我。非常感謝你。所以,目前只有一個洗牌管理器。我閱讀[本文](https://0x0fff.com/spark-architecture-shuffle/)。它介紹了3種算法,哈希,排序和鎢。散列已被刪除。我怎麼知道現在應用了哪種洗牌算法(如果是排序或鎢排序)。我有點困惑。鎢條件必須像該條中提到的那樣持有。如果這些條件不成立,將應用原始排序算法? –

+0

事情已經發生了變化,文章(雖然當時非常好)不是過時的。親自查看代碼。 –

+0

@JacekLaskowski,關於這個問題,只是好奇爲什麼hash shuffle manager在spark 2.x中被刪除了?謝謝 – seiya