2017-09-01 66 views
1

我的火花紗線羣集被許多用戶使用,並且火花歷史記錄服務器中有大量作業。通過Spark歷史記錄服務器查找我的工作需要很多時間。我無法找到任何選項來通過用戶ID在火花wiki here上篩選作業。按用戶ID或時間的火花歷史記錄服務器篩選作業

我想知道,有什麼方法可以選擇特定用戶提交的作業列表嗎?或在特定的時間窗口?謝謝。

回答

0

如果您正在使用你可以依靠紗列出並篩選您的應用程序

yarn application -list | grep -i spark | grep hdpuser 

應該列出由hdpuser您的火花的應用程序。 同樣在YARN的網絡用戶界面上,你可以看到你所有的工作,你可以通過不同的標準過濾(yarn commands)。

使用REST API,在路徑/applications/[app-id]/environment上,您具有Spark應用程序的環境詳細信息(僅適用於2.2 Spark版本)。使用屬性user.name它的值應該是啓動spark工作的用戶名。

查看端口4040上的火花Web UI上列出的環境屬性以查看所有可用屬性。

+0

是啊,目前我一直只遵循這個過程,這裏的挑戰是,必須使用紗線列出工作,然後查詢火花歷史服務器。在我的組織中,infra團隊已經通過UI/rest禁用紗線訪問,並且爲了登錄到生產羣集,這個過程很漫長。但我們可以直接訪問spark歷史記錄服務器UI。 –

+0

明白了!看我的編輯。我認爲其餘的API上有很多有用的信息暴露 – dumitru

+0

謝謝,它是有道理的!同樣的事情是,當多個用戶和作業之間共享羣集時,您將無法獲得固定的固定端口號,4040可能已被分配給另一個作業,並且您將獲得下一個可用端口大於4040.因此,端口號不確定案件。 –

相關問題