我們已經編寫了一些代碼,通過使用Spark 1.6.1和Scala 2.10在Scala中編寫的GraphX連接和鏈接數據集。Spark GraphX spark-shell vs spark-submit性能差異
如果我們在spark-shell中運行此代碼,它將在30分鐘內完成10個執行程序,每個執行程序10個內存& 5 cpu。
如果我們在一個帶有spark-submit的胖罐子裏運行這個過程,那麼這個過程會因爲內存不足錯誤而失敗,並且需要一個半小時才能到達那個點。
有沒有人有任何想法可能會導致此?
有誰知道如何在shell中設置SparkContext和SQLContext,並且如果我們錯過了設置我們自己的上下文的任何內容,這可能會導致spark-submit運行如此糟糕的問題?
我們檢查了它們是相同的設置,即使我們提供了比shell更多的資源提交資源,它仍然會遇到問題。另外如果數據傾斜,它應該會影響shell並以相同的方式提交? –
@AndyLong你可以檢查Spark Web UI中的參數值嗎? –
也許有些設置被覆蓋,這就是爲什麼我想檢查來自Web UI的信息 –