2016-05-05 240 views
0

我正在研究建立一個JDBC Spark連接以使用R/python。我知道pysparkSparkR都可用 - 但這些似乎更適合交互式分析,尤其是因爲它們爲用戶保留了羣集資源。我正在考慮更類似於Tableau ODBC Spark連接的東西 - 這是我支持簡單隨機訪問的更輕量級(據我瞭解)。雖然這似乎是可能的,並且存在一些documentation,但對於我而言,JDBC驅動程序的要求並不明確。JDBC Spark連接

我應該像使用org.apache.hive.jdbc.HiveDriver一樣建立Hive連接,因爲Hive和Spark SQL通過節儉似乎緊密相連嗎?我應該換出Hive連接(使用HiveServer2端口)所需的hadoop公共依賴關係(用於hive.server2.thrift.http.port)嗎?

此外,由於大多數連接功能似乎利用Hive,導致Spark SQL被用作查詢引擎而不是Hive的關鍵是什麼?

回答

0

事實證明,我需要使用的URL與ambari中列出的Hive數據庫主機URL不匹配。我在一個示例中遇到了正確的URL,以便如何連接(專門針對我的集羣)。鑑於正確的URL,我能夠使用HiveDriver建立連接而沒有問題。