2013-04-24 76 views
0

HDFS內部的文件夾結構應該支持年度,月度和日常數據處理。如果我們必須在過去16天/ 21天內完成處理,框架應該支持這一點。任何特定天數,處理應該在沒有人爲干預的情況下完成,除了規定的天數和開始日期之外。 HDFS路徑規範應該是自動的。默認將每天處理文件。什麼是可以處理這些場景的好的hadoop文件夾結構?

該框架應與Map Reduce代碼集成在一起,因爲它必須知道啓動該作業需要查看哪些文件夾。

電流: 例如:

/用戶/項目名稱/ sourcefiles /數據集名稱/ YYYY/MM/DD /時間戳/文件名

但這並不滿足所有的要求。例如,如果我們必須處理過去16天的數據。

「/ user/projectname/sourcefiles/datasetname/yyyy/mm/[01] [0-9]/timestamp/filename」此路徑將不起作用,因爲第19天的文件也將包含在內。

您如何確保HDFS文件夾結構和Map Reduce作業的時間戳同步?

感謝您的時間。

回答

0
0

如果您向MAP Reduce提供文件夾,它將處理該文件夾中的所有文件。您可以創建每週文件夾或每兩週文件夾。我希望這將有助於

相關問題