2017-06-14 184 views
0

我注意到大多數博客都在討論如何設置HDFS審計日誌。 但有沒有一個來源來確定每個操作/ cmd代表什麼?HDFS審計日誌格式和說明

我發現下面的表中的Hadoop HowToConfigure維基: HDFS Audit Logs format

但我不知道的是,在所有的操作,他們的立場是什麼做的。

例如我試圖通過讀/寫操作對操作進行分類,但似乎「打開」是讀/寫的通用命令,其餘部分更像DDL和訪問控制操作。

我明白,在像Cloudera或HDP這樣的不同Hadoop發行版中,他們有自己的方式來告訴審計日誌,但默認操作是什麼意思?例如創建 - 可能意味着創建文件/ mkdirs可能意味着mkdir的配置單元表/配置單元分區。

最重要的是有沒有一種方法來區分讀/寫操作?

回答

0

如果您想到最典型的Hadoop作業(Pig,Hive,MR,SQOOP,Spark),則很少覆蓋數據,因此創建意味着寫入和打開意味着讀取。如果您要覆蓋數據,則實際上將其刪除,然後重新創建它。

要區分哪個服務執行了操作,還需要查看其他來源(Hive審計日誌,YARN RM審計日誌)或從用戶和目錄推斷服務(/ usr/hive/warehouse/*很可能一個配置單元查詢)。

覆蓋/添加的引用:

How to force STORE (overwrite) to HDFS in Pig?

How does Sqoop append command will work in hadoop

蜂巢審覈日誌:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AuditLogs