如何檢查一個hadoop序列文件是否爲空

我注意到在這種情況下，這些文件的大小是不變的（在我的壓縮選擇中，我的情況是128字節）。有沒有API或一種方法來檢查文件是否沒有任何內容？如何檢查一個hadoop序列文件是否爲空

2012-05-18 kee

除了打開文件並嘗試獲取第一個鍵/值對之外，沒有。原因在於沒有標題詳細說明每個「塊」中的記錄數量（主要是因爲數據流出了，所以當寫入標題時，沒有關鍵字數量的先驗知識）。

以前有關於如何避免創建這些'空'文件的線索，但唯一真正的做法是創建自己的OutputFormat和OutputComitter，它跟蹤輸出值的數量，並且不會'如果沒有寫入數據，則提交該文件。

2012-05-18 18:34:32

這裏是一個博客，我在延長SequenceFileOutputFormat寫道以避免犯這些空文件到HDFS - HTTP ：//whiteycode.blogspot.com/2012/06/hadoop-removing-empty-output-files.html –

Chris，你的博客非常有幫助！非常感謝！ – kee

請注意，在更新版本的Hadoop（1.0.0+）中，他們引入了'org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat '，它做了類似的事情。 –

一個簡單的解決打開查看序列文件在HDFS或S3

Hadoop的FS -text path_of_sequence_file

來源

2013-11-26 12:19:12

回答