pyspark

    1熱度

    1回答

    我有一個寬表作爲Spark數據框(pyspark)和每個單元格,我需要將數據轉換爲格式column_name:column_name:value。我正在嘗試使用map函數,但我無法獲取列名。即使這不工作: map_dummy(c, v): return c+":"+c+":"+v metadata.select(*(map_dummy(c, col(c)) for c in meta

    0熱度

    1回答

    我正在尋找方法來 改變pyspark數據幀列的類型從 df.printSchema() 要 謝謝,爲了您的幫助,提前。

    0熱度

    1回答

    加盟pyspark 2個dataframes我有兩個dataframes,我需要一列加入,並採取從第一數據框中只有一排排如果該ID被包含在第二個數據幀的同一列: DF1 : id a b 2 1 1 3 0.5 1 4 1 2 5 2 1 DF2: id c d 2 fs a 5 fa f 希望的輸出: df:

    3熱度

    1回答

    我有一個pyspark DF以及多個數字列,我希望每列都根據每個變量計算該行的十分位數或其他分位數列。 對於熊貓來說,這很簡單,因爲我們可以使用qcut函數爲pd.qcut(x,q = n)中的'q'賦值0至n-1,爲每個變量創建一個新列。 這怎麼可以在pyspark完成?我嘗試了以下內容,但顯然這些三分之一的突破點並不是唯一的。我想得到指定數據的1/3,下一個1/3指定爲2,頂部1/3指定爲3.

    0熱度

    2回答

    (SQL味火花本地SQL)說我有一排如: **userId** : String | **assignedEntities** : String JOHN | "ENTITY_1,ENTITIY_2,...,ENTITY_100" ,我想這件事分成「分塊」大小2的名單,但使用不同的密鑰,以確定它們: **userId** | **assignedEntities** JOHN_1 | "E

    0熱度

    2回答

    我是pyspark數據框的新手,並且曾經使用過RDD。我有這樣一個數據幀: date path 2017-01-01 /A/B/C/D 2017-01-01 /X 2017-01-01 /X/Y 而且要轉換爲以下幾點: date path 2017-01-01 /A/B 2017-01-01 /X 2017-01-01 /X/Y 基本上第三/包括之後擺脫一切。因此,與前RD

    -1熱度

    2回答

    我在嘗試在完成所有處理後將文件寫入s3時發生了一些奇怪的錯誤。 我想知道內存分配是否與此有關。 任何建議都會有幫助。 我在獨立模式下運行Spark 2.1.0。 的錯誤是如下: 17/09/26 15:50:27 ERROR Utils: Aborting task org.apache.spark.SparkException: Python worker exited unexpectedl

    1熱度

    1回答

    我嘗試用火花在這裏學到 https://www.codementor.io/jadianes/building-a-web-service-with-apache-spark-flask-example-app-part2-du1083854 本教程中,燒瓶我嘗試使用捲曲發送文件user_ratings.file在Win 10使用CMD與這行代碼 curl --data-binary @user_

    0熱度

    1回答

    我使用jupyter筆記本與熊貓,但是當我使用Spark時,我想使用Spark DataFrame轉換或計算而不是熊貓。請幫助我將一些計算轉換爲Spark DataFrame或RDD。 數據幀: df = +--------+-------+---------+--------+ | userId | item | price | value | +--------+-------+----

    -1熱度

    1回答

    我的數據框如下所示。我需要從輸入數組類型列中提取值。你能不能讓我知道我該如何在體育館做到這一點? None root |-- input: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: string | | |-- value: map (valueContainsNull =