我們的工作流程使用AWS彈性地圖縮小集羣來運行一系列Pig作業,以將大量數據處理爲彙總報告。不幸的是,輸入數據可能不一致,並且可能導致輸入文件或0字節文件被傳遞給流水線,甚至導致流水線的某些階段產生。如何處理Apache Pig中的空白或缺少輸入文件?
在LOAD語句中,如果Pig沒有找到任何輸入文件或任何輸入文件都是0字節,則Pig會失敗。
有沒有什麼好的方法可以解決這個問題(希望在Pig配置或腳本或Hadoop集羣配置中,無需編寫自定義加載器......)?
(由於我們使用AWS彈性地圖減少,我們堅持用豬0.6.0和Hadoop 0.20)。
因爲這樣的問題,我停止使用Pig。在0.6.0中編寫自定義加載器幾乎是不可能的(他們在0.8.0中改進了加載器API)。考慮使用Hive。 – 2011-04-20 23:32:05