apache-spark-sql

    2熱度

    1回答

    用直線連接到SparkSQL 1.3,我試圖創建一個使用S3數據的表(使用S3A協議)來加載AWS憑據: CREATE EXTERNAL TABLE mytable (...) STORED AS PARQUET LOCATION 's3a://mybucket/mydata'; 我得到以下錯誤: ​​ 我有以下環境變量設置spark-env.sh: AWS_ACCESS_KEY_ID=<my

    1熱度

    3回答

    我想弄清楚如何測試對Cassandra數據庫的Spark SQL查詢 - 就像在SQL Server Management Studio中那樣。目前我必須打開Spark控制檯並輸入Scala命令,這些命令非常繁瑣且容易出錯。 喜歡的東西: scala > var query = csc.sql("select * from users"); scala > query.collect().for

    10熱度

    2回答

    考慮具有相對大量聚集的和相對較多的組運行GROUP BY的下面的例子: import org.apache.spark.sql.hive.HiveContext import org.apache.spark.SparkContext._ val h = new HiveContext(sc) import h.implicits._ val num_columns = 3e3.toIn

    1熱度

    1回答

    我在YARN支持上使用Spark 1.3.0和Spark使用Spark 1.3.0運行CDH 5.4。 當我在HIVE中創建一個簡單的鑲木桌,然後嘗試使用PySpark執行轉換或聚合時,它會向我發送此錯誤消息。有什麼想法嗎?要重現執行下列操作... HIVE問題: CREATE TABLE IF NOT EXISTS TestTable_Parquet( Investment_Id int, I

    57熱度

    4回答

    我試過df.orderBy("col1").show(10),但它按升序排序。 df.sort("col1").show(10)也按降序排列。我看着stackoverflow和我發現的答案都是過時的或referred to RDDs。我想在spark中使用本地數據框。

    1熱度

    1回答

    我遇到過一種情況,我想在Spark和/或Spark Streaming管道(Java中)中執行「查找」。查找有點複雜,但幸運的是,我有一些現有的Spark管道(可能是DataFrame),我可以重複使用。 對於每個傳入記錄,我想潛在從任務啓動spark任務以獲取必要的信息來裝飾它。 考慮到性能影響,這個有沒有是一個好主意? 沒有考慮性能影響,這甚至有可能嗎?

    6熱度

    2回答

    我正在使用Spark Scala API。我有一個Spark SQL數據幀(從Avro的文件中讀取)與下面的模式: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: string (valueContainsNu

    2熱度

    2回答

    正如標題所描述,說我有兩個RDDS rdd1 = sc.parallelize([1,2,3]) rdd2 = sc.parallelize([1,0,0]) 或 rdd3 = sc.parallelize([("Id", 1),("Id", 2),("Id",3)]) rdd4 = sc.parallelize([("Result", 1),("Result", 0),("Result"

    19熱度

    1回答

    我有一些數據的JSON文件,我能夠創建數據框了出來,併爲它的特定部分的模式我很感興趣的樣子如下: val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- attributes: struct (nullable = true) | |-- Address2: array (nullable

    2熱度

    1回答

    我在火花SQL中寫了一個UDF,我想知道是否有一個地方我可以閱讀關於到底是什麼的文檔和什麼是不可能在這方面?或者一個教程?我正在使用SQLContext,而不是HiveContext。 我見過的例子通常包括傳入一個字符串,對其進行轉換,然後輸出一些其他對象的轉換後的字符串,這是我設法成功完成的。但是如果想要傳入一種真正屬於某種Spark SQL Row對象的輸入,或者是一個Row對象列表,其中每個