2013-09-26 80 views
-1

我們正在組織中設置Hadoop和Hive。 此外,我們將通過數據生成器工具創建示例數據。數據將大約爲1 TB。 我的問題是 - 我必須將這些數據加載到Hive和Hadoop中。我需要遵循的過程是什麼?從平面文件或現有數據庫將數據加載到Hive

此外,我們將安裝HBase與Hadoop。 我們需要在SQL Server中創建相同的數據庫設計,但是使用Hive。在將這些數據加載到配置單元后,我們希望使用Business Objects 4.1作爲前端來創建報告。 該challage是加載示例數據到蜂巢.. 請幫助我,因爲我們想盡快做所有的事情。

+1

什麼阻止你這樣做? – Tariq

+0

這不是一個編程問題。你的具體問題是什麼? –

回答

0

對於第一種情況,您需要將數據放在hdfs中。

  1. 傳輸數據文件(S)與客戶端節點(應用節點)
  2. 把你的文件分發恩文件系統(HDFS DFS -put ...)
  3. 創建一個外部表指向HDFS您在其中上傳這些文件的目錄。你的數據是某種方式的結構。例如用分號符號分隔。
  4. 現在您可以使用sql查詢操作數據。

對於第二種情況,您可以創建另一個配置單元表(使用HBaseStorageHandler,https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration)並使用Insert語句從第一個表中加載。

我希望這可以幫助你。

1
  • 首先攝取你的數據在HDFS
  • 使用蜂巢外部表,指着在那裏你攝入的數據,即你的HDFS目錄的位置。
  • 您全部設置爲從您在Hive中創建的表中查詢數據。
  • 祝你好運。
相關問題