目前,我正在從EDW(企業數據倉庫)的10個表中引入Hadoop,這些表格與Star Schema模型密切相關。我喜歡Sqoop將所有這些表放在一起,導致包含csv文件的10個目錄。在Hadoop中建模數據
我正在看什麼是一些更好的方法來存儲這些文件,然後再關閉MR作業。在開展MR工作之前,我應該遵循某種模式還是建立一個聚合體?我基本上在考慮如何將相關數據存儲在一起。
我通過搜索發現的大部分內容都是存儲簡單的csv文件並使用opencsv讀取它們。我正在尋找一些更多的參與,而不僅僅是爲了CSV文件。如果轉向另一種格式比csv更好,那麼這沒有問題。
歸結爲:如何最好地將一堆相關數據存儲在HDFS中,以便與MR有良好的體驗。