2012-05-18 45 views

回答

2

除了打開文件並嘗試獲取第一個鍵/值對之外,沒有。原因在於沒有標題詳細說明每個「塊」中的記錄數量(主要是因爲數據流出了,所以當寫入標題時,沒有關鍵字數量的先驗知識)。

以前有關於如何避免創建這些'空'文件的線索,但唯一真正的做法是創建自己的OutputFormat和OutputComitter,它跟蹤輸出值的數量,並且不會'如果沒有寫入數據,則提交該文件。

+1

這裏是一個博客,我在延長SequenceFileOutputFormat寫道以避免犯這些空文件到HDFS - HTTP ://whiteycode.blogspot.com/2012/06/hadoop-removing-empty-output-files.html –

+0

Chris,你的博客非常有幫助!非常感謝! – kee

+0

請注意,在更新版本的Hadoop(1.0.0+)中,他們引入了'org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat ',它做了類似的事情。 –

0

一個簡單的解決打開查看序列文件在HDFS或S3

Hadoop的FS -text path_of_sequence_file