我正在研究建立一個JDBC Spark連接以使用R/python。我知道pyspark
和SparkR
都可用 - 但這些似乎更適合交互式分析,尤其是因爲它們爲用戶保留了羣集資源。我正在考慮更類似於Tableau ODBC Spark連接的東西 - 這是我支持簡單隨機訪問的更輕量級(據我瞭解)。雖然這似乎是可能的,並且存在一些documentation,但對於我而言,JDBC驅動程序的要求並不明確。JDBC Spark連接
我應該像使用org.apache.hive.jdbc.HiveDriver一樣建立Hive連接,因爲Hive和Spark SQL通過節儉似乎緊密相連嗎?我應該換出Hive連接(使用HiveServer2端口)所需的hadoop公共依賴關係(用於hive.server2.thrift.http.port)嗎?
此外,由於大多數連接功能似乎利用Hive,導致Spark SQL被用作查詢引擎而不是Hive的關鍵是什麼?