我已經安裝了hadoop和hbase以進行實時分析。我面臨的問題是將數據從mysql遷移到Hbase。從mysql連續數據遷移到Hbase
sqoop工具對於批量數據遷移很有用,是否有任何方法可以將mysql中的數據傳輸到HBase上(在插入/更新/刪除時發生)。因此可以實現實時分析。不是近實時的。
請在這方面幫助我。
我已經安裝了hadoop和hbase以進行實時分析。我面臨的問題是將數據從mysql遷移到Hbase。從mysql連續數據遷移到Hbase
sqoop工具對於批量數據遷移很有用,是否有任何方法可以將mysql中的數據傳輸到HBase上(在插入/更新/刪除時發生)。因此可以實現實時分析。不是近實時的。
請在這方面幫助我。
我認爲你面臨着在不同的DBMS之間建立複製的任務。原生複製機制無用時就是這種情況。 最簡單的解決方案是在要複製的表上創建一組觸發器 - 並將要複製的數據寫入某個附加表。然後,您可以設置監控此表並將更改應用於HBase。
更健壯但更復雜的解決方案是分析用於其本機複製機制的MySQL日誌,並將更改應用於HBase。
與此同時,我不清楚鋤頭HBase會給你實時分析。我寫了一篇關於這個問題在這裏升技: Group by In HBase
添加有關在項目中使用蜂巢的更多信息,有您可以集成蜂巢和HBase的共同努力多個設置。例如,如果您使用AWS,則可以在同一個hadoop集羣上安裝HBase/Hive,以同時在Hive表和Hbase表上運行連接查詢。或者,您可以將HBase和Hive分爲兩個不同的羣集,並引用您的Hive查詢中的HBase數據。如果你使用Cloudera發行版,你也可以做同樣的事情。
參考:
感謝大衛分享你的想法。其實我的任務是提出分析的haddop和hbase。正如你上面提到的,使用MySQL日誌是一個好主意。我的電子郵件是 1.將數據從MySQL遷移到HBase。 2.我在HBase中爲每個分析報告提供了一個數據模型。 3.我假設使用MR作業,我可以使用上面的遷移數據填充此報告表。 我不太確定在哪裏使用HIVE或我在正確的軌道上。請分享你的想法。 – dharshan 2012-04-01 12:50:10
我會考慮將數據正確地遷移到配置單元中,並使用HQL(SQL類似於語言)進行所有聚合/報告。然後,報告的結果(特別是如果它們的大小適中)可以遷移回MySQL。你不會達到實時達到秒,甚至可能達到分鐘。它會是簡單和可擴展的解決方案。
我還不確定HBase是如何進入這個畫面的。
– 2012-04-01 18:44:22
謝謝大衛。由於我們預計在不久的將來會有大量數據,因此HBase進入市場。將有成千上萬的餐館將被整合,這樣交易數據量將會很大。根據交易數據生成分析報告。 請分享你的想法。 – dharshan 2012-04-02 05:53:48