我最近一直在使用Hadoop。我想知道是否有任何API或監控工具可用於收集有關任務和HDFS的實時統計信息(例如,從站/主站之間的數據移動)。Hadoop實時監控工具/ API
我只能從日誌文件中找到這些信息,但我希望實時獲得這些信息(不是後期分析)。
我最近一直在使用Hadoop。我想知道是否有任何API或監控工具可用於收集有關任務和HDFS的實時統計信息(例如,從站/主站之間的數據移動)。Hadoop實時監控工具/ API
我只能從日誌文件中找到這些信息,但我希望實時獲得這些信息(不是後期分析)。
您可以從Jobtracker Web UI(用於任務)中抓取信息,或使用API編寫一個小型Java程序來訪問JobTracker並輪詢它以獲取信息。在HDFS事件方面,您需要尾部&解析日誌文件,或者可能需要從Namenode Web UI中刪除一些信息。可能使用JMX從每個datanode獲取度量標準,具體取決於您之後的內容。
如果您正在使用Yarn,在屏幕抓取作業跟蹤器Hadoop YARN - Introduction to the web services REST API's之前會使用其餘的API。如果你使用1.3,我什麼都不知道。 Apache的Jira上有一個bug opened要求這個功能,但它在MRv2中標記爲已解決,所以我不希望有任何進展。
關於Ganglia/Nagios,這對人不跟蹤工作流程,它跟蹤系統的健康狀況。如果它有能力追蹤埋藏在它的內部的工作追蹤,我還沒有找到它。
Jumbune具有非侵入式羣集監視功能。這是Hadoop供應商中立。它具有可監控多個Hadoop集羣的集羣監控(分析)功能。
集羣監控(分析),爲您提供執行,
這是一個該方法。最好是將Hadoop與Ganglia和Nagios集成。 –