2016-10-31 68 views
4

我有一個火花流作業在1秒的批量生產中運行。我使用CDH 5.5 Spark 1.5。我們使用Kafka Create Directstream。我們啓用了背壓。我們不想要起訴動態分配所以執行工作與執行者的數量執行。突然增加火花流作業的計劃延遲作業沒有改變其他參數

below image我可以看出,這些是從13.50的調度延遲突然增加但在同一時間,我沒有看到在處理時間的任何dealy。

  1. 當處理時間相同時,調度時間增加的原因是什麼?
  2. 集羣中的其他作業加載是否會影響當前的流式作業。在我的理解不應該是這樣的,因爲流的執行者已預先分配,並已運行

有什麼想法?

enter image description here

+0

你能解決這個問題嗎?我在Spark流應用程序中觀察到一個非常類似的問題,它從Kafka讀取其輸入(使用DirectKafkaStream方法) – jithinpt

+0

我們沒有爲此提供特定的解決方案。使用批處理持續時間和執行程序內存和V核心解決了我們的問題。 –

回答

0

這的確是一個奇怪的問題在第一,但讓我們得到了這一點Does other job loads in the cluster effect the current streaming job。答案是,如果另一個進程開始在同一個羣集上運行,並且可能導致爭用,那麼您將看到等待的CPU共享將受到影響。你有沒有在容器中運行火花?由於我不知道如何設置羣集,因此也很難完全理解您的問題。

+0

我的集羣是簡單的CDH 5.5集羣。所以火花正在Yarn上運行。我有專門的資源池創建火花任務。但是,其他火花批量作業是否共享相同的池 –