我有點困惑與Hadoop配置單元,我從Wiki讀取用於使OLAP。 現在我想從使用Mysql的OLTP數據庫在Hive上進行OLAP。使OLAP與Hadoop Hive從OLTP Mysql
我該如何解決這個問題?我可以使用水壺在配置單元中製作OLAP嗎? 任何指導如何使從OLTP MySQL配置單元上的OLAP?
Tks。
我有點困惑與Hadoop配置單元,我從Wiki讀取用於使OLAP。 現在我想從使用Mysql的OLTP數據庫在Hive上進行OLAP。使OLAP與Hadoop Hive從OLTP Mysql
我該如何解決這個問題?我可以使用水壺在配置單元中製作OLAP嗎? 任何指導如何使從OLTP MySQL配置單元上的OLAP?
Tks。
我建議採用以下方法:
a)指定OLTP進程的歷史記錄部分。通常它是某種日誌操作。讓我們稱之爲事實表。
b)讓事實表按時間分區
c)定期從MySQL卸載最早的分區,方法是將其導出到CSV並從MySQL中刪除。
E)加載這個CSV文件蜂巢
通過實施這個模式,你將在蜂巢所有,但最新的數據,並防止MySQL的OLTP數據庫的增長。
感謝您的回覆David,我使用Sqoop從RDBMS(如Mysql)導入和加載數據庫到Hive。但現在我有問題,使用Hive中的數據源進行報告:(我已經發布了我的問題[http://stackoverflow.com/questions/7020565/create-datasource-hive-on-pentaho-hadoop](http: //stackoverflow.com/questions/7020565/create-datasource-hive-on-pentaho-hadoop)但我還沒有得到答案 –
您能否詳細說明您現有的設置以及您要完成的任務。 –