2011-01-25 79 views
1

我有數據文件排列在名爲日期的文件夾中。目錄結構Hadoop輸入文件訂單

  • /數據/ 2011/03/03
  • /數據/ 2011/01/02

等和每個目錄中大約有50個文件,我需要解析並我給hadoop的輸入爲/ data/**/**/**,以便它可以解析所有文件。我的問題是

  1. 我該如何要求hadoop訂購輸入。我需要按日期解析文件。
  2. 在解析特定日期的文件時,我需要預先加載與該日期關聯的數據結構,並且位於同一日期目錄中。

感謝 Ankush

回答

1
  1. 你不能命令輸入。在「最壞情況」情況下,如果您擁有與羣集中運行任務相同數量的輸入文件,則它們將全部在同一時間並行處理。
  2. 也許你可以創建一個自定義的「FileInputFormat」實現來讀取所需的配置文件並做你需要的嗎?