火花流驅動程序進程內存不足

我在火花流應用程序中的驅動程序進程有問題。問題是驅動程序進程內存不足。主節點和工作節點都沒有問題（它們都運行良好，連續數天）。但即使使用非常有限的饋送（每5分鐘發送兩條消息，處理1條消息的時間少於100毫秒），我會在一段時間後（例如，週末）在驅動程序過程中發生oom錯誤。火花流驅動程序進程內存不足

以下是詳細信息：

我有一個簡單的火花流媒體應用程序，從MQTT數據源消耗事件，並在數據庫中存儲這些。我正在使用一個具有1個主節點和2個工作節點的小型火花集羣。我有1個驅動程序進程（開始使用spark-submit和部署模式客戶端）提供集羣。我在Ubuntu上使用Java8（Oracle VM）運行spark-1.4.1-bin-hadoop2.6。

我的驅動程序基本上如下：

JavaReceiverInputDStream<String> messages = createInputDStream(ssc); 
messages.mapPartitions(...).mapToPair(...).updateStateByKey(...). 
    foreachRDD(rdd -> { 
    rdd.foreach(ne -> { 
    }); 
    return null; 
    });

我已經做了初步調查。如果我參加了駕駛過程中的堆轉儲收集實例的直方圖（JMAP -histo），我通常會看到這樣的東西：

1:   36388  81204168 [B 
    2:  407486  32826432 [C 
    3:   40849  25067224 [I 
    4:  367245  8813880 scala.collection.immutable.$colon$colon 
    5:  311000  7464000 java.lang.String 
    6:  114294  7314816 org.apache.spark.storage.RDDInfo

我注意到，隨着時間的推移，RDDInfo對象的數量在增加。堆轉儲顯示大部分RDDINfo對象保留在JobProgressListener的stageIdToData映射中。看看這個類的代碼，它似乎應該注意丟棄舊數據。因此，我已經在conf/spark-defaults.conf中設置了

spark.ui.retainedJobs  50 
spark.ui.retainedStages 50

。但是這並沒有幫助。從我的轉儲中，我看到這個stageIdToData地圖包含1897個條目。鑑於上述配置設置，這看起來很奇怪。

我在這裏做錯了什麼，或者這是一個火花問題？

來源

2015-09-07 user2519865

您是否解決了這個問題？我遇到了與檢查點到S3相同的問題。 – Navneet

我不這麼認爲。很久以前，我很久以前就開始工作了。 – user2519865

您是否在應用程序的驅動程序端執行任何操作？就像獲取數據並處理它，保存在內存中一樣？

來源

2015-09-10 08:06:59

不，我不是。這是我的驅動程序循環。 asEvents（messages）.foreachRDD（rdd - > { rdd.foreach（ne - > { }）; return null; }）; – user2519865

由於您使用的是updateStateByKey，因此您的流必須是checkpointing。嘗試減少檢查點間隔。

在你的記憶快照中，你有一堆數組。誰在堅持這些？

來源

2015-09-10 08:17:32

是的，我正在檢查點。減少間隔不只是推遲厄姆？ [B來自最終來自netty緩衝區的ThreadLocal（來自shuffle-server-0線程）。 [C來自SparkContext中的JobProgressListener。 [我也來自JobProgressListener。 – user2519865

火花流驅動程序進程內存不足

回答

相關問題