2014-07-22 82 views
9

我有4個數據節點和HDFS結構的每個節點上的集羣是如下什麼是hadoop hdfs中的/ tmp目錄?

enter image description here

我面臨的磁盤空間的問題,因爲你可以看到從HDFS已經佔據更多的空間/tmp目錄文件夾( 217GB)。所以我試圖調查從/tmp文件夾中的數據。我發現了以下臨時文件。我訪問了這些臨時文件夾,每個文件夾都包含10GB到20GB的部分文件。 我想清除這個/ tmp目錄。任何人都可以讓我知道刪除這些tmp文件夾或零件文件的後果。它會影響我的集羣嗎?

enter image description here

回答

14

HDFS/tmp目錄主要用作精簡操作過程中的臨時存儲。 Mapreduce工件,中間數據等將保存在該目錄下。 mapreduce作業執行完成後,這些文件將自動清除。如果刪除此臨時文件,則可能會影響當前正在運行的mapreduce作業。

臨時文件由豬創建。臨時文件刪除發生在最後。如果腳本執行失敗或死亡,Pig不處理臨時文件刪除。那麼你必須處理這種情況。你最好在腳本本身處理這個臨時文件清理活動。

下面的文章爲您提供了一個很好的理解

http://www.lopakalogic.com/articles/hadoop-articles/pig-keeps-temp-files/

+0

嗨,這些/ tmp目錄下的文件都沒有得到自動刪除。你能分享我們可以設置的文件名嗎?選擇自動刪除文件。如果這些文件是mapreduce操作,那麼爲什麼/ tmp的大小是217 Gb。 –

+0

你可以發佈以下命令的輸出嗎? hadoop fs -lsr/tmp/temp-2050991966/tmp-184805992 – sachin

+0

'1)2014-07-21 11:09/tmp/temp-2050991966/tmp-184805992/_SUCCESS 2)2014-07-21 11: 07/tmp/temp-2050991966/tmp-184805992/_logs 3)2014-07-21 11:09/tmp/temp-2050991966/tmp-184805992/_logs/history 4)2014-07-21 11: 09 /tmp/temp-2050991966/tmp-184805992/_logs/history/job_201405161515_15124_1405921062606_ocuser_PigLatin%3AOC_Generate_Connect_Strength.pig 5)278029 2014年7月21日11時07分/ TMP/TEMP-2050991966/TMP-184805992/_logs /歷史/ job_201405161515_15124_conf .xml 6)2014-07-21 11:08/tmp/temp-2050991966/tmp-184805992/part-m-00000 7)2014-07 -21 11:08/tmp/temp-2050991966/tmp-184805992/part-m-00001' –