2016-08-19 18 views
0

我試圖爲不同的站點選擇apache spark集羣的拓撲結構。火花是否有自己的意識能力?apache spark是否具有地理意識?

例如假設在俄勒岡州和檳城有工人羣。

現在提交一個應用程序,該應用程序從俄勒岡州加載數據並將其保存回俄勒岡州。俄勒岡州的工人會被首選(如果他們是免費的)? 尚未找到有關此主題的文檔。

+1

Spark本身不具有地理意識。即它不知道你是否在俄勒岡州和檳城有工人,並且因爲數據在那裏而只在俄勒岡州排隊。您需要構建您的羣集,以便與具有最低網絡延遲的工作人員一起運行特定作業。 –

回答

2

如這裏描述https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html

火花依賴於數據局部性,又名數據放置或鄰近數據 源,使火花作業,其中數據位於敏感。 因此,如果數據來自HDFS,那麼在Hadoop YARN羣集 上運行Spark是非常重要的。數據系統本身可以是地理感知的,例如, cassandra:Does Spark use data locality?http://www.slideshare.net/RussellSpitzer/spark-cassandralocality