pyspark

1熱度

1回答

我有一個寬表作爲Spark數據框（pyspark）和每個單元格，我需要將數據轉換爲格式column_name：column_name：value。我正在嘗試使用map函數，但我無法獲取列名。即使這不工作： map_dummy(c, v): return c+":"+c+":"+v metadata.select(*(map_dummy(c, col(c)) for c in meta

0熱度

1回答

如何更改pyspark數據幀列數據類型？

我正在尋找方法來改變pyspark數據幀列的類型從 df.printSchema（）要謝謝，爲了您的幫助，提前。

0熱度

1回答

一列

加盟pyspark 2個dataframes我有兩個dataframes，我需要一列加入，並採取從第一數據框中只有一排排如果該ID被包含在第二個數據幀的同一列： DF1 ： id a b 2 1 1 3 0.5 1 4 1 2 5 2 1 DF2： id c d 2 fs a 5 fa f 希望的輸出： df:

3熱度

1回答

Pyspark列的Deciles或其他分位數列

我有一個pyspark DF以及多個數字列，我希望每列都根據每個變量計算該行的十分位數或其他分位數列。對於熊貓來說，這很簡單，因爲我們可以使用qcut函數爲pd.qcut（x，q = n）中的'q'賦值0至n-1，爲每個變量創建一個新列。這怎麼可以在pyspark完成？我嘗試了以下內容，但顯然這些三分之一的突破點並不是唯一的。我想得到指定數據的1/3，下一個1/3指定爲2，頂部1/3指定爲3.

0熱度

2回答

如何將SQL中的行分成單獨的編號行？

（SQL味火花本地SQL）說我有一排如： **userId** : String | **assignedEntities** : String JOHN | "ENTITY_1,ENTITIY_2,...,ENTITY_100" ，我想這件事分成「分塊」大小2的名單，但使用不同的密鑰，以確定它們： **userId** | **assignedEntities** JOHN_1 | "E

0熱度

2回答

修改列pyspark數據幀的所有值

我是pyspark數據框的新手，並且曾經使用過RDD。我有這樣一個數據幀： date path 2017-01-01 /A/B/C/D 2017-01-01 /X 2017-01-01 /X/Y 而且要轉換爲以下幾點： date path 2017-01-01 /A/B 2017-01-01 /X 2017-01-01 /X/Y 基本上第三/包括之後擺脫一切。因此，與前RD

-1熱度

2回答

將文件寫入s3的錯誤 - pyspark

我在嘗試在完成所有處理後將文件寫入s3時發生了一些奇怪的錯誤。我想知道內存分配是否與此有關。任何建議都會有幫助。我在獨立模式下運行Spark 2.1.0。的錯誤是如下： 17/09/26 15:50:27 ERROR Utils: Aborting task org.apache.spark.SparkException: Python worker exited unexpectedl

1熱度

1回答

類型錯誤：「dict_keyiterator」對象未標化的

我嘗試用火花在這裏學到 https://www.codementor.io/jadianes/building-a-web-service-with-apache-spark-flask-example-app-part2-du1083854 本教程中，燒瓶我嘗試使用捲曲發送文件user_ratings.file在Win 10使用CMD與這行代碼 curl --data-binary @user_

0熱度

1回答

Spark DataFrame運算符（nunique，乘法）

-1熱度

1回答

pyspark - 從數據框中獲取數組類型的值