apache-spark-sql

0熱度

3回答

我正在尋找一種方法來選擇我的數據框在pyspark中的列。對於第一行，我知道我可以使用df.first()，但不確定列是否在沒有列名。我有5列，並希望通過其中每一個循環。 +----------------+---+---+---+---+---+---+ | _1| _2| _3| _4| _5| _6| _7| +----------------+---+---+---+---+-

-1熱度

2回答

如何創建自定義的用戶定義聚合獨特功能

我有一個數據框，其中包含4列。數據幀樣本 id1 id2 id3 id4 --------------- a1 a2 a3 a4 b1 b2 b3 b4 b1 b2 b3 b4 c1 c2 c3 c4 b2 c1 a3 a4 c1 d4 有一排2種類型的數據的任一的所有列具有數據或僅一列。我想要在所有列上執行不同的功能，例如在

-1熱度

1回答

pyspark：DataFrame.withColumn（）有時需要以不同的名稱分配給新的DataFrame

這似乎特別發生在我將數字列乘以標量時，將DataFrame寫回HDFS，然後嘗試查看當我再次將它加載到DataFrame中時的值。例如，在pyspark shell中不會發生。 df = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>不翻轉列 df_new = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>作品

0熱度

1回答

Spark SQL UNION - ORDER BY列不在SELECT中

我正在做兩個臨時表的聯合，並試圖按列排序，但火花抱怨我無法解析我訂購的列。這是一個錯誤還是我錯過了什麼？ lazy val spark: SparkSession = SparkSession.builder.master("local[*]").getOrCreate() import org.apache.spark.sql.types.StringType val ol

0熱度

1回答

Apache Spark數量的執行程序

我在數據庫上有Spark應用程序，它在32個節點的集羣上運行，每個16個內核和30GB內存。我想改變一些會話配置，但無論我改變了什麼，我都無法再讓更多的執行者，然後32（如執行者頁面上看到火花ui）？這些CONFIGS我已經改變了： spark.executor.instances spark.executor.memory spark.executor.cores 因爲我讀的併發任務最大

0熱度

1回答

如何使用spark-submit提交包含查詢的查詢或.sql文件

我想在spark上運行查詢。我把它們都在我的.sql文件目前我運行的方式是： spark-sql --master yarn /home/myuser/query.sql 但只要在查詢完成談到了火花SQL>內執行... 。shell提示然後作業狀態不會更改成功完成它顯示RUNNING由於spark-sql>外殼是活動的，所以我必須明確地做CTRL + C才能出來。所以我基本上只想提交一個s

2熱度

2回答

PySpark組中的中位數/分位數通過

我想計算Spark數據框上的組分位數（使用PySpark）。無論是近似還是精確的結果都可以。我更喜歡在groupBy/agg的上下文中使用的解決方案，以便我可以將其與其他PySpark聚合函數混合使用。如果由於某種原因無法實現，則採用不同的方法也可以。 This question是相關的，但並不指示如何使用approxQuantile作爲聚合函數。我也有權訪問percentile_approx

0熱度

1回答

使用火花結構化流式讀取s3中的avro文件

我想使用spark結構化流式api讀取s3中的avro文件。你可以找到有關使用kafka的信息，但是我找不到s3的任何信息。這裏的問題是我不知道要設置什麼格式。這裏是我的簡單代碼： Dataset<Row> baseDataSet = sparkSession .readStream() .format("?") //What this format sho

2熱度

2回答

如何把avg降序？

我想要得到一個降序，並使用spark從一個csv文件中取整數爲zhvi。但是，當我在代碼的末尾嘗試sort(desc("Zhvi"))時。它總是給我錯誤。 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi').groupBy((col("State"))).avg("Zhvi"

3熱度

1回答

如何平均分配數據集以避免歪斜的連接（和長時間運行的任務）？

我正在用databricks筆記本上的Spark數據集API編寫應用程序。我有2個表格。一個是15億行，其次是250萬。兩個表都包含電信數據，並且使用國家代碼和數字的前5位完成連接。產量有550億行。問題是我有偏斜的數據（長時間運行的任務）。無論我如何重新分配數據集，由於散列鍵的分佈不均勻，我會得到長時間運行的任務。我試着用廣播連接，試圖堅持在內存等大表分區..... 什麼是我選擇這裏？