我目前正在使用Hadoop的項目。我們正處於項目的開始階段。使用Hadoop解除規範化
首先,我有~50個關係數據庫表。我們提取它們並在HDFS上導出。現在,我們想要將參考數據去標準化爲「大表」(只有3-4個文件)。我想我會用map reduce來完成這項工作。我知道我怎麼可以用小桌子來做,但是用大桌子...
例如,我有一個包含數百萬條目的表格「Ticket」,並且有一個表格「Lign」 150億條目。我必須將它們歸一化。
我的問題是,是否有任何方法適用或最佳做法?
由於提前, Angelik
你有沒有考慮過使用Hive?您將數據導出到HDFS的格式是什麼? – Venkat
我正在使用csv文件。事實上,我沒有考慮Hive,因爲我有很多領域,我想用參數文件做一些可重用的東西。 – Angelik