2017-03-07 44 views
0

我試圖調整慢速運行的DSX作業的性能。火花歷史記錄服務器未顯示「完整」應用程序

我已從Bluemix上的基礎Spark業務導航到Spark歷史記錄服務器(按照此question)。

我已經執行包含一些基本的火花代碼單元:

In [1]: 
x = sc.parallelize(range(1, 1000000)) 
x.collect() 

Out[1]: 
[1, 
2, 
3, 
4, 
5, 
... 

以後,我在瀏覽器中刷新作業歷史記錄服務器頁面,但是,火花歷史服務器沒有顯示任何完整的應用程序:

enter image description here

如何找到'完整'的應用程序?


更新

火花服務,我指的是Bluemix IBM的管理服務的火花,所以我沒有對配置進行任何控制。

更新2

看起來好像日期越來越損壞,這就是爲什麼我沒有看到已完成的作業:

enter image description here

回答

0

我已經接受了火花服務工程團隊 - 這是一個已知的問題。

0

你配置火花集羣有事件登錄?像這樣:

spark.eventLog.enabled true 
spark.eventLog.dir hdfs://namenode/shared/spark-logs 
1

筆記本上下文啓動一個Spark應用程序,它將在作業完成後繼續運行20分鐘。當您在此期間提交其他作業時,它將使用同一個應用程序並出現在相同的歷史記錄條目中。因此,您無法跟蹤歷史記錄服務器中筆記本或Interactive API內核的作業/活動完成情況。

Spark活動在內核日誌中生成輸出,也許可以提供您正在查找的信息。

+0

Thanks @Roland。我真的需要歷史服務器,以便我可以調試不高效的作業。我剛剛檢查(4小時後),歷史記錄服務器仍然沒有顯示任何完整的應用程序。是否可以強制沖洗日誌,所以我不必等待20分鐘才能開始評估我的工作? –

+0

對不起,我不熟悉Spark基礎結構的這一部分。這是SparkEGO資源管理。當您重新啓動內核時,您可能根本沒有在歷史記錄服務器中獲得完成條目。 –

+0

Np - upvoting,因爲答案對其他用戶很有用。但是,它看起來好像我的工作歷史日誌已損壞。我已經更新了這個問題來反映這一點。 –

相關問題