1
我是spark中的新成員,並嘗試使用HortonWorks Sandbox在tpcds基準表上運行一些查詢。 http://www.tpc.org/tpcds/ 在沙箱上通過shell或配置單元查看使用配置單元時沒有問題。問題是我不知道如何連接到數據庫,如果我想使用火花。 如何在Spark中使用配置單元數據庫來運行查詢? 我直到現在才知道的唯一解決方案是手動重建每個表,並使用下面的scala代碼加載數據,這不是最好的解決方案。在spark中使用hive數據庫
scala> val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
scala> sqlContext.sql("CREATE TABLE IF NOT EXISTS employee(id INT, name STRING, age INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'")
scala> sqlContext.sql("LOAD DATA LOCAL INPATH 'employee.txt' INTO TABLE employee")
scala> val result = sqlContext.sql("FROM employe SELECT id, name, age")
scala> result.show()
我也讀了一些關於蜂房的site.xml,但我不知道在哪裏可以找到它,並就它什麼樣的變化,以連接到數據庫。
蜂巢網站(和其他配置文件)是在安裝Hadoop二進制文件的地方 –
如果您正在使用沙箱,那麼您需要的所有東西都應該在這裏回答。最後幾個命令從現有的Hive表中查詢http://hortonworks.com/hadoop-tutorial/using-hive-with-orc-from-apache-spark/ –