pyspark-sql

1熱度

2回答

我有一個名爲df的pyspark數據框。 ONE LINE EXAMPLE: df.take(1) [Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")] 我有假期一天的清單： holydays=[u'2016-12-25',u'2016-12-08'....] 我想改用day_type爲「HOLIDAY」如果「數據」是holyd

0熱度

2回答

PySpark：如何將行轉換爲向量？

我在一個數據幀的工作有三列，可樂，COLB和COLC +---+-----+-----+-----+ |id |colA |colB |colC | +---+-----+-----+-----+ | 1 | 5 | 8 | 3 | | 2 | 9 | 7 | 4 | | 3 | 3 | 0 | 6 | | 4 | 1 | 6 | 7 | +---+-----+-----+-----

0熱度

2回答

將pyspark分組的數據對象轉換爲火花Dataframe

我必須在pyspark數據框上執行2級分組。我試探性的： grouped_df=df.groupby(["A","B","C"]) grouped_df.groupby(["C"]).count() ，但我得到了以下錯誤： 'GroupedData' object has no attribute 'groupby' 我想我應該分組的對象首先轉換成pySpark DF。但我不能那樣做。

0熱度

1回答

PySpark：我如何再加入一列到數據框？

我正在使用兩個inicial列的數據幀，id和colA。 +---+-----+ |id |colA | +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | +---+-----+ 我需要合併該數據幀到另一列以上，COLB。我知道colB非常適合DataFrame的末尾，我只需要一些方法將它們連接在一起。 +-----+ |c

0熱度

3回答

在Pyspark Dataframe中選擇列

我正在尋找一種方法來選擇我的數據框在pyspark中的列。對於第一行，我知道我可以使用df.first()，但不確定列是否在沒有列名。我有5列，並希望通過其中每一個循環。 +----------------+---+---+---+---+---+---+ | _1| _2| _3| _4| _5| _6| _7| +----------------+---+---+---+---+-

-1熱度

1回答

pyspark：DataFrame.withColumn（）有時需要以不同的名稱分配給新的DataFrame

這似乎特別發生在我將數字列乘以標量時，將DataFrame寫回HDFS，然後嘗試查看當我再次將它加載到DataFrame中時的值。例如，在pyspark shell中不會發生。 df = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>不翻轉列 df_new = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>作品

2熱度

2回答

PySpark組中的中位數/分位數通過

我想計算Spark數據框上的組分位數（使用PySpark）。無論是近似還是精確的結果都可以。我更喜歡在groupBy/agg的上下文中使用的解決方案，以便我可以將其與其他PySpark聚合函數混合使用。如果由於某種原因無法實現，則採用不同的方法也可以。 This question是相關的，但並不指示如何使用approxQuantile作爲聚合函數。我也有權訪問percentile_approx

2熱度

2回答

如何把avg降序？

我想要得到一個降序，並使用spark從一個csv文件中取整數爲zhvi。但是，當我在代碼的末尾嘗試sort(desc("Zhvi"))時。它總是給我錯誤。 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi').groupBy((col("State"))).avg("Zhvi"

0熱度

1回答

分組數據計算方差

我想要計算PySpark2中的分組數據對象上的方差。看看http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.GroupedData，我沒有看到任何內置的計算差異函數。是否有一種有效的方法來計算PySpark2中的GroupedData對象上的方差？這裏是我將如何計算平均值的示例代碼，最小值和最大值

0熱度

2回答

如何根據Pyspark中的數據框中的條件設置新的列表值？

我有一個像下面的DataFrame。 +---+------------------------------------------+ |id |features | +---+------------------------------------------+ |1 |[6.629056, 0.26771536, 0.79063195,0.8923] | |2 |[1.