我試圖用Nagios監控Hadoop集羣。我的目標是監視所有Hadoop守護進程(如DataNode,Jobtracker和Tasktracker等)的狀態和資源使用情況。我能想到的解決方案是監視這些守護進程正在使用的端口。但是這似乎非常有限。比如,我看不出有多少任務節點等Nagios監控hadoop集羣的腳本
所以,我的問題是正在運行:是否有使用的Nagios監控Hadoop的系統解決方案?
感謝,
淑敏
我試圖用Nagios監控Hadoop集羣。我的目標是監視所有Hadoop守護進程(如DataNode,Jobtracker和Tasktracker等)的狀態和資源使用情況。我能想到的解決方案是監視這些守護進程正在使用的端口。但是這似乎非常有限。比如,我看不出有多少任務節點等Nagios監控hadoop集羣的腳本
所以,我的問題是正在運行:是否有使用的Nagios監控Hadoop的系統解決方案?
感謝,
淑敏
有一定的方法來監控Hadoop集羣與SNMP。您應該在Linux服務器上安裝軟件包snmp。還必須在羣集上啓用SNMP,我想有一個選項可以在某種基於Web的管理控制檯中啓用它。
當你啓用這個,你應該能夠snmpwalk的集羣:
snmpwalk -v 2c -c public <ip address cluster>
..比你可以寫一個Perl或bash腳本來檢查您喜歡的位置監視特定的OID。 您可以將此腳本放置在您的'libexec'文件夾中,並在commands.cfg中爲此腳本定義一個新命令,如check_cluster_snmp或您喜歡的任何內容。
您還可以查看使用JMX羣集,但我不知道了很多關於JMX呢。
最好的辦法是使用JMX,因爲它允許一個視圖到Java進程,以檢查是怎麼回事,以及提供指標(如被列入黑名單的節點,HDFS空間狀態等)。
您可以通過URL拉從每個節點的數據http://node.domain:port/jmx?qry=*adoop
你可以看看這是有關這些問題: