2016-04-01 111 views
3

目前我正在運行我的火花集羣作爲獨立模式。我從平面文件或Cassandra(取決於作業)讀取數據,並將處理後的數據寫回Cassandra本身。在獨立模式下運行火花集羣與紗線/介子

如果我切換到Hadoop並開始使用Resource managerYARNmesos我想知道,它給我像執行時間和更好的資源管理額外的性能優勢?

目前有一段時間,我在洗牌過程中處理大量數據,可能出現階段失敗。如果我遷移到YARN,可以Resource manager解決此問題?

回答

3

Spark獨立羣集管理器還可以爲您提供羣集模式功能。

如果您僅運行Spark,則Spark獨立羣集將提供與其他羣集管理器幾乎所有相同的功能。

當您以集羣模式提交應用程序時,所有與作業相關的文件都將被複制到集羣中的一臺機器上,然後以您的名義提交作業,如果您以客戶機模式提交應用程序工作正在提交的工作將負責與司機有關的活動。這意味着已提交作業的機器無法脫機,而在集羣模式下,作業已提交的機器可以脫機。

擁有一個Cassandra集羣也不會改變這些行爲,除非它可以爲您的網絡流量節省您的火花執行器(就像數據本地化)最近的接觸點。

如果您使用任一羣集管理器,那麼失敗的階段將重新安排。

3

我想知道如果我切換到Hadoop並開始使用像YARN或mesos這樣的資源管理器,它是否會爲我提供額外的性能優勢,如執行時間和更好的資源管理?

獨立羣集模型,每個應用程序使用羣集中的所有可用節點。

spark-standalone文檔頁面:

的獨立羣集模式目前只支持跨應用程序的一個簡單的FIFO調度。但是,要允許多個併發用戶,您可以控制每個應用程序將使用的最大資源數量。默認情況下,它將獲取集羣中的所有內核,這隻有在您一次只運行一個應用程序時纔有意義。

在其他情況下(當您運行在集羣中的多個應用程序),你可以喜歡YARN

目前有些時候,在洗牌過程中處理大量數據時可能會出現階段失敗。如果我遷移到YARN,資源經理可以解決這個問題嗎?

由於您的應用程序邏輯未知,因此無法確定。但你可以試試YARN

看一看相關SE問題爲YARN的好處超過獨立Mesos

Which cluster type should I choose for Spark?

+1

得到了您的基本錯誤的好友,獨立的集羣可以輕鬆擴展高達節點的100S。其調度功能區分了集羣管理者。請參考[http://spark.apache.org/docs/latest/security.html](http://spark.apache.org/docs/latest/security.html)和[http://www.agildata。 com/apache-spark-cluster-managers-yarn-mesos-or-standalone /](http://www.agildata.com/apache-spark-cluster-managers-yarn-mesos-or-standalone/) –

+0

我有刪除了一段時間內已無關緊要的舊內容。 –

相關問題