我注意到在這種情況下,這些文件的大小是不變的(在我的壓縮選擇中,我的情況是128字節)。有沒有API或一種方法來檢查文件是否沒有任何內容?如何檢查一個hadoop序列文件是否爲空
0
A
回答
2
除了打開文件並嘗試獲取第一個鍵/值對之外,沒有。原因在於沒有標題詳細說明每個「塊」中的記錄數量(主要是因爲數據流出了,所以當寫入標題時,沒有關鍵字數量的先驗知識)。
以前有關於如何避免創建這些'空'文件的線索,但唯一真正的做法是創建自己的OutputFormat和OutputComitter,它跟蹤輸出值的數量,並且不會'如果沒有寫入數據,則提交該文件。
0
一個簡單的解決打開查看序列文件在HDFS或S3
Hadoop的FS -text path_of_sequence_file
相關問題
- 1. 如何檢查列表是否爲空?
- 2. 如何檢查隊列是否爲空?
- 3. 檢查列是否爲空
- 4. 如何檢查文件中的下一行是否爲空?
- 5. Java檢查文件是否爲空:IOException:null
- 6. 檢查文件是否爲空?
- 7. 檢查Excel文件是否爲空C#
- 8. ANT:檢查文件是否爲空
- 9. C++檢查文件是否爲空
- 10. 檢查文件是否爲空
- 11. 檢查xml文件是否爲空
- 12. 檢查文件是否爲空或不
- 13. Python - 檢查文件是否爲空
- 14. 檢查一個變量是否爲空
- 15. 檢查一個值是否爲空
- 16. 檢查一個NSMutableDictionary是否爲空?
- 17. 檢查一個表是否爲空
- 18. 檢查一個BSTR是否爲空
- 19. 檢查一個對象是否爲空
- 20. 檢查列是否爲空或空
- 21. AJAX檢查一個外部文件的div是否爲空
- 22. 檢查一個文件夾是否爲空(內部存儲)
- 23. 如何檢查jQuery的可排序列表是否爲空
- 24. 檢查其他列列是否爲空
- 25. 如何檢查是否編輯文本的一個是空
- 26. 如何檢查兩個FK中的一個是否爲空?
- 27. 如何檢查SQL Server文本列是否爲空?
- 28. 如何檢查Windows.Form是否爲空(無控件)但不爲空?
- 29. 如何檢查一列是否等於一個變量可爲空
- 30. 如何檢查文件夾是否爲空
這裏是一個博客,我在延長SequenceFileOutputFormat寫道以避免犯這些空文件到HDFS - HTTP ://whiteycode.blogspot.com/2012/06/hadoop-removing-empty-output-files.html –
Chris,你的博客非常有幫助!非常感謝! – kee
請注意,在更新版本的Hadoop(1.0.0+)中,他們引入了'org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat',它做了類似的事情。 –