豬腳本可以翻譯成多個MR作業,我想知道是否有界面或方法來查看整個PIG腳本的進度,例如計劃多少個作業,執行等。如何檢查PIG作業的總體進度
回答
有一個命令說明但它引發我的部署異常。所以我使用另一種方法。
你可以在很多MR作業如何使用解釋命令來看,在實際規劃部分,這是在解釋報告的結尾安排的信息。要獲得腳本的MR作業數量,我執行以下操作:
./pig -e 'explain -script ./script_name.pig' > ./explain.txt
grep MapReduce ./explain.txt | wc -l
現在我們計劃了MR作業的數量。要監視腳本執行,在運行之前,需要訪問Hadoop的jobtracker頁面(通過「http://(IP_or_node_name):50030/jobtracker.jsp」)並記下上一個作業的名稱(Completed Jobs部分)。提交腳本。刷新jobtracker頁面並計算有多少個正在運行的作業,以及在您記錄的那個之後完成多少個作業。現在您可以瞭解剩下多少工作要執行。 點擊每項工作,查看其統計數據和進度。
更簡單的方法是在小數據集上運行腳本,記下作業的數量,並在腳本執行後顯示在控制檯輸出上。由於豬沒有改變其執行計劃,它將與大數據集相同。通過查看Hadoop的jobtracker頁面上的每個作業的統計信息(通過「http://(IP_or_node_name):50030/jobtracker.jsp」),您可以瞭解每個MR作業所佔的時間比例。您可以使用它來近似插值大數據集上的執行時間。如果您的數據和一些笛卡爾產品有偏差,執行時間預測可能會變得棘手。
我們在Twitter上遇到了同樣的問題,因爲我們的一些Pig腳本啓動了數十個Map-Reduce作業,有時很難分辨出他們中的哪些人正在做什麼,理解計劃的效率,瞭解多少人會並行運行等
所以我們創建了Twitter的安布羅斯:https://github.com/twitter/ambrose
它旋轉起來,讓你一個很好的網絡用戶界面,顯示作業DAG一點碼頭服務器,顏色齊全作業的節點,使你對工作進行統計,並告訴你每個工作正試圖計算哪些關係。
- 1. Hadoop PIG作業中的Lucene查詢
- 2. 如何檢查Vagrant進度
- 3. 在嵌入式構建過程中檢查總體進度
- 4. 如何查看扭矩集羣上的.jar作業的進度
- 5. 如何檢查qsub作業的命運
- 6. 如何檢查php作業實例
- 7. 如何檢查HttpWebRequest上傳的進度?
- 8. 如何使用後臺工作人員檢查進程進度
- 9. PowerShell作業進度監控
- 10. 如何總結特定的列時PIG
- 11. Uploadify檢查進度
- 12. cURL檢查進度
- 13. AFNetworking檢查進度
- 14. 從外部Pig作業(Pig - > DSE連接器)寫入DSE
- 15. Hadoop作業調度查詢
- 16. 如何檢查基於騾的石英調度程序中的作業狀態
- 17. Swift:檢查SKActions的進度
- 18. 如何在構建Wordpress主題時檢查工作進度?
- 19. 如何在成功時保留PIG作業日誌文件。
- 20. WebHCat&Pig - 如何將參數文件傳遞給作業?
- 21. 如何檢查作業是否正確進行(Python的機械化)
- 22. 如何在eclipse rcp中顯示作業的進度?
- 23. 如何跟蹤隊列作業的進度?
- 24. 如何檢查我有以下我都用檢查哪個石英調度作業運行代碼Quartz調度作業未運行
- 25. 如何查看Resque作業
- 26. 如何檢索作業隊列中的預定作業列表?
- 27. 總結Pig中的值
- 28. Pig的COGROUP操作員如何工作?
- 29. 如何檢查發送給HTcondor的特定作業的狀態?
- 30. 檢查SOLR索引進度