我想要做的就是將工作流和作業元數據(如開始日期,結束日期和狀態)提供給配置單元表,供BI工具用於可視化目的。我希望能夠監測例如某個工作流程在某些時間段內是否失敗,成功率...如何使用Hive公開Hadoop作業和工作流元數據
爲此,我需要訪問相同的數據Hue能夠在作業瀏覽器和Oozie中顯示儀表板。例如,我正在尋找專門針對工作流程的名稱,提交者,狀態,開始和結束時間。我想這樣做的原因是,在我看來,這個工具缺乏一般概述和良好的搜索。 這個想法是,一旦我找到這些數據,我將直接或通過一些處理步驟將其加載到Hive中。
的問題,我想看看回答:
- 是HDFS中存儲這些數據,或者是分散在本地數據節點?
- 如果它存儲在HDFS中。我在哪裏可以找到它?如果它存儲在本地數據節點中,Hue如何查找並顯示它?
- 假設我可以訪問數據。我會以什麼格式期待這些數據。這是存儲在一般的日誌文件中,還是我可以期望有點結構化的數據?
我使用CDH 5.8