2014-03-19 41 views
0

我目前正在使用Hadoop的項目。我們正處於項目的開始階段。使用Hadoop解除規範化

首先,我有~50個關係數據庫表。我們提取它們並在HDFS上導出。現在,我們想要將參考數據去標準化爲「大表」(只有3-4個文件)。我想我會用map reduce來完成這項工作。我知道我怎麼可以用小桌子來做,但是用大桌子...

例如,我有一個包含數百萬條目的表格「Ticket」,並且有一個表格「Lign」 150億條目。我必須將它們歸一化。

我的問題是,是否有任何方法適用或最佳做法?

由於提前, Angelik

+0

你有沒有考慮過使用Hive?您將數據導出到HDFS的格式是什麼? – Venkat

+0

我正在使用csv文件。事實上,我沒有考慮Hive,因爲我有很多領域,我想用參數文件做一些可重用的東西。 – Angelik

回答

0

編寫加入到執行MR非規範化將是一個耗時的過程,可能是不值得的,考慮到有一定適用於您的Hadoop的其他工具簇。

既然你已經有表格的DDL,並且數據是結構化的,我可以推薦的最好方法是使用Hive而不是原始MapReduce。你會爲自己節省很多時間和問題。

+0

事實上,我應該在開始時使用Hive。我想做一些可重用的東西,這就是爲什麼我想使用MR和參數文件的原因。但是,當然,Hive會節省我的時間,我會嘗試使用它。謝謝 – Angelik