apache-spark-sql

2熱度

1回答

用直線連接到SparkSQL 1.3，我試圖創建一個使用S3數據的表（使用S3A協議）來加載AWS憑據： CREATE EXTERNAL TABLE mytable (...) STORED AS PARQUET LOCATION 's3a://mybucket/mydata'; 我得到以下錯誤：我有以下環境變量設置spark-env.sh： AWS_ACCESS_KEY_ID=<my

1熱度

3回答

如何在沒有Scala的情況下測試Spark SQL查詢

我想弄清楚如何測試對Cassandra數據庫的Spark SQL查詢 - 就像在SQL Server Management Studio中那樣。目前我必須打開Spark控制檯並輸入Scala命令，這些命令非常繁瑣且容易出錯。喜歡的東西： scala > var query = csc.sql("select * from users"); scala > query.collect().for

10熱度

2回答

與火花SQL組圍繞性能和內存問題的工作BY

考慮具有相對大量聚集的和相對較多的組運行GROUP BY的下面的例子： import org.apache.spark.sql.hive.HiveContext import org.apache.spark.SparkContext._ val h = new HiveContext(sc) import h.implicits._ val num_columns = 3e3.toIn

1熱度

1回答

在PySpark中使用CDH 5.4和Spark 1.3.0與拼花表在HIVE中發生Parquet錯誤

我在YARN支持上使用Spark 1.3.0和Spark使用Spark 1.3.0運行CDH 5.4。當我在HIVE中創建一個簡單的鑲木桌，然後嘗試使用PySpark執行轉換或聚合時，它會向我發送此錯誤消息。有什麼想法嗎？要重現執行下列操作... HIVE問題： CREATE TABLE IF NOT EXISTS TestTable_Parquet( Investment_Id int, I

57熱度

4回答

如何在Spark SQL中按列降序排序？

我試過df.orderBy("col1").show(10)，但它按升序排序。 df.sort("col1").show(10)也按降序排列。我看着stackoverflow和我發現的答案都是過時的或referred to RDDs。我想在spark中使用本地數據框。

1熱度

1回答

是否可以從任務中獲取和使用JavaSparkContext？

我遇到過一種情況，我想在Spark和/或Spark Streaming管道（Java中）中執行「查找」。查找有點複雜，但幸運的是，我有一些現有的Spark管道（可能是DataFrame），我可以重複使用。對於每個傳入記錄，我想潛在從任務啓動spark任務以獲取必要的信息來裝飾它。考慮到性能影響，這個有沒有是一個好主意？沒有考慮性能影響，這甚至有可能嗎？

6熱度

2回答

如何在flatMap中使用Spark SQL DataFrame？

2熱度

2回答

加入兩（非）配對RDDS做一個數據幀

正如標題所描述，說我有兩個RDDS rdd1 = sc.parallelize([1,2,3]) rdd2 = sc.parallelize([1,0,0]) 或 rdd3 = sc.parallelize([("Id", 1),("Id", 2),("Id",3)]) rdd4 = sc.parallelize([("Result", 1),("Result", 0),("Result"

19熱度

1回答

Spark DataFrame嵌套結構是否受限選擇？

我有一些數據的JSON文件，我能夠創建數據框了出來，併爲它的特定部分的模式我很感興趣的樣子如下： val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- attributes: struct (nullable = true) | |-- Address2: array (nullable

2熱度

1回答

用scala寫火花sql中的UDF

我在火花SQL中寫了一個UDF，我想知道是否有一個地方我可以閱讀關於到底是什麼的文檔和什麼是不可能在這方面？或者一個教程？我正在使用SQLContext，而不是HiveContext。我見過的例子通常包括傳入一個字符串，對其進行轉換，然後輸出一些其他對象的轉換後的字符串，這是我設法成功完成的。但是如果想要傳入一種真正屬於某種Spark SQL Row對象的輸入，或者是一個Row對象列表，其中每個