2016-06-22 65 views
0

我們獲得了容量爲900TB的hdfs。由於存儲的數據越來越多,難以跟蹤哪些內容有用以及哪些內容可能會被刪除。 我想分析以下模式的hdfs使用情況,以便可以優化使用容量。如何獲得詳細的hdfs使用情況報告

  1. 什麼是頻繁訪問的數據。
  2. 數據未被長時間觸摸/訪問(可能的候選刪除)
  3. 用戶的數據使用情況分佈。
  4. 活躍用戶。

回答

1

可以得到從數據:

  • (1)HDFS審計日誌(每用戶/ IP訪問模式)
  • (2)的FsImage(每個文件的訪問時間,數據不能訪問)

(1)您是否啓用了HDFS審計日誌?閱讀更多here

(2)要開始的FsImage閱讀this - 有這個例子中的「數據未被觸摸/的訪問時間長」

您可能還需要考慮HAR歸檔數據(而不是刪除) - 因此可以減少名稱節點上的存儲使用量和珍貴內存。