JDBC Spark連接

2016-05-05 240 views 0 likes

我正在研究建立一個JDBC Spark連接以使用R/python。我知道pyspark和SparkR都可用 - 但這些似乎更適合交互式分析，尤其是因爲它們爲用戶保留了羣集資源。我正在考慮更類似於Tableau ODBC Spark連接的東西 - 這是我支持簡單隨機訪問的更輕量級（據我瞭解）。雖然這似乎是可能的，並且存在一些documentation，但對於我而言，JDBC驅動程序的要求並不明確。JDBC Spark連接

我應該像使用org.apache.hive.jdbc.HiveDriver一樣建立Hive連接，因爲Hive和Spark SQL通過節儉似乎緊密相連嗎？我應該換出Hive連接（使用HiveServer2端口）所需的hadoop公共依賴關係（用於hive.server2.thrift.http.port）嗎？

此外，由於大多數連接功能似乎利用Hive，導致Spark SQL被用作查詢引擎而不是Hive的關鍵是什麼？

來源

2016-05-05 Matt Pollock