2013-08-19 31 views
3

我的目標是識別與Hadoop集羣相關的網絡數據包,因爲在我使用的集羣中有其他服務生成與Hadoop無關的網絡流量。
我假設我的Hadoop集羣獨特地使用HDFS和MapReduce,而不是像HBase,Pig,Hive等其他應用程序......
有什麼方法可以過濾Hadoop數據包嗎?例如,如果Hadoop的使用修復源或目的端口(至少一個,源或destionation)
當網絡流量嗅探時,是否有任何方法可以過濾Hadoop數據包?

更新:我使用Apache Hadoop的1.0.3和libpcap的嗅探包

回答

0

我不知道您正在使用哪種Hadoop發行版或哪種數據包嗅探器,但您應該可以在這裏採用幾種不同的方法。

假設您正在使用Hadoop服務的默認端口,您應該能夠鍵入NameNode和DataNode流量的目標端口以及JobTracker/TaskTracker。 This link由Cloudera發佈,但它們使用與Hortonworks或任何其他Apache Hadoop發行版相同的默認端口,因此這些信息應該適用於您的用例。

此外,Wireshark似乎有一個HDFS協議dissector,這意味着它應該是它可以處理的一種類型。如果你不熟悉Wireshark作爲網絡數據包分析器,我建議你檢查一下。

希望這是有益的 - 祝你好運!

+0

然後,我可以假設Hadoop節點之間所有網絡連接的所有目標端口都是已知的。因此,我可以通過那些已知的目標端口過濾Hadoop數據包,對吧? – tremendows