1
我的火花紗線羣集被許多用戶使用,並且火花歷史記錄服務器中有大量作業。通過Spark歷史記錄服務器查找我的工作需要很多時間。我無法找到任何選項來通過用戶ID在火花wiki here上篩選作業。按用戶ID或時間的火花歷史記錄服務器篩選作業
我想知道,有什麼方法可以選擇特定用戶提交的作業列表嗎?或在特定的時間窗口?謝謝。
我的火花紗線羣集被許多用戶使用,並且火花歷史記錄服務器中有大量作業。通過Spark歷史記錄服務器查找我的工作需要很多時間。我無法找到任何選項來通過用戶ID在火花wiki here上篩選作業。按用戶ID或時間的火花歷史記錄服務器篩選作業
我想知道,有什麼方法可以選擇特定用戶提交的作業列表嗎?或在特定的時間窗口?謝謝。
如果您正在使用紗你可以依靠紗列出並篩選您的應用程序
yarn application -list | grep -i spark | grep hdpuser
應該列出由hdpuser您的火花的應用程序。 同樣在YARN的網絡用戶界面上,你可以看到你所有的工作,你可以通過不同的標準過濾(yarn commands)。
使用REST API,在路徑/applications/[app-id]/environment上,您具有Spark應用程序的環境詳細信息(僅適用於2.2 Spark版本)。使用屬性user.name它的值應該是啓動spark工作的用戶名。
查看端口4040上的火花Web UI上列出的環境屬性以查看所有可用屬性。
是啊,目前我一直只遵循這個過程,這裏的挑戰是,必須使用紗線列出工作,然後查詢火花歷史服務器。在我的組織中,infra團隊已經通過UI/rest禁用紗線訪問,並且爲了登錄到生產羣集,這個過程很漫長。但我們可以直接訪問spark歷史記錄服務器UI。 –
明白了!看我的編輯。我認爲其餘的API上有很多有用的信息暴露 – dumitru
謝謝,它是有道理的!同樣的事情是,當多個用戶和作業之間共享羣集時,您將無法獲得固定的固定端口號,4040可能已被分配給另一個作業,並且您將獲得下一個可用端口大於4040.因此,端口號不確定案件。 –