HDFS內部的文件夾結構應該支持年度,月度和日常數據處理。如果我們必須在過去16天/ 21天內完成處理,框架應該支持這一點。任何特定天數,處理應該在沒有人爲干預的情況下完成,除了規定的天數和開始日期之外。 HDFS路徑規範應該是自動的。默認將每天處理文件。什麼是可以處理這些場景的好的hadoop文件夾結構?
該框架應與Map Reduce代碼集成在一起,因爲它必須知道啓動該作業需要查看哪些文件夾。
電流: 例如:
/用戶/項目名稱/ sourcefiles /數據集名稱/ YYYY/MM/DD /時間戳/文件名
但這並不滿足所有的要求。例如,如果我們必須處理過去16天的數據。
「/ user/projectname/sourcefiles/datasetname/yyyy/mm/[01] [0-9]/timestamp/filename」此路徑將不起作用,因爲第19天的文件也將包含在內。
您如何確保HDFS文件夾結構和Map Reduce作業的時間戳同步?
感謝您的時間。