2016-04-14 28 views
2

據星火DOC,有5個級別的數據局部性的:任務數據局部性NO_PREF。何時使用?

  • PROCESS_LOCAL
  • NODE_LOCAL
  • NO_PREF
  • RACK_LOCAL
  • 任何

他們都是很清楚除了NO_PREF之外(來自Spark doc:「數據訪問同等快速從anyw這裏沒有本地優先選擇「)

什麼情況可以使用NO_PREF?

回答

1

其中一個RDD特徵是首選位置。例如,如果RDD源是HDFS文件,首選位置應包含數據在物理位置的數據節點。但是,如果數據來自哪裏沒有區別,或者Spark無法確定首選位置,則Spark會在處理此類RDD期間創建數據局部性設置爲NO_PREF的任務。

相關問題