pyspark

    3熱度

    1回答

    如何計算以前3個值的窗口大小的美元滾動中值? 輸入數據 dollars timestampGMT 25 2017-03-18 11:27:18 17 2017-03-18 11:27:19 13 2017-03-18 11:27:20 27 2017-03-18 11:27:21 13 2017-03-18 11:27:22 43 2017-03-18 11:27:23

    0熱度

    1回答

    因此,我使用RDD.pipe()函數管道化一些二進制數據到「貓」,當我收到它的數據被更改,所以我不能使用它。我死了如何修復它? 我使用python3 中的代碼和數據的標準桿如下: line = sc.binaryFiles("files/pipevids") line.map(lambda x:x[1]).pipe("cat").take(1) 和原始數據: b'RIFF\xeaU\n\x0

    0熱度

    1回答

    我已經編寫了一個非常簡單的python腳本來測試我的火花流的想法,並計劃在我的本地機器上運行它來混亂一點點。下面是一個命令行: spark-submit spark_streaming.py localhost 9999 但終端丟給我一個錯誤: Error executing Jupyter command '<the/spark_streaming.py/file/path>': [Errn

    0熱度

    2回答

    我在Spark中使用dataframe以tablular格式拆分和存儲數據。我在文件中的數據看起來如下 - {"click_id": 123, "created_at": "2016-10-03T10:50:33", "product_id": 98373, "product_price": 220.50, "user_id": 1, "ip": "10.10.10.10"} {"click_i

    0熱度

    1回答

    說,我有some_col列 df_1 = df_1.repartition(50, 'some_col') df_2 = df_2.repartition(50, 'some_col') df_3 = df_1.join(df_2, on='some_col') 2個星火DataFrames我認爲df_3應該由some_col也劃分,有50個分區,但我的實驗表明,至少在過去的條件是不正確

    0熱度

    1回答

    我以前使用conda構建了pyspark環境來打包所有的依賴關係,並在運行時將它們發送到所有節點。以下是我創造環境: `conda/bin/conda create -p conda_env --copy -y python=2 \ numpy scipy ffmpeg gcc libsndfile gstreamer pygobject audioread librosa` `zip -r

    0熱度

    1回答

    我具有低於 +++++++++++++++++++++ colA | colB | colC | +++++++++++++++++++++ 123 | 3 | 0| 222 | 0 | 1| 200 | 0 | 2| 一個數據幀爲數據幀顯示的值I要爲1的值來代替colB和colC的值如果它們是大於0 我能夠使用na.fill函數,如果我需要填充0的零。但我不知道如何做到這一點。

    0熱度

    1回答

    我有一個python火花文件: from pyspark.sql import Row from pyspark.sql import SparkSession from pyspark.sql import SQLContext import pyspark.sql.functions as psf import json spark = SparkSession \ .b

    1熱度

    1回答

    我在AWS S3中有一個CSV文件,正在加載到AWS Glue,即用於對來自S3的源數據文件應用轉換。它提供了PySpark腳本環境。數據看起來有點像這樣: "ID","CNTRY_CD","SUB_ID","PRIME_KEY","DATE" "123","IND","25635525","11243749772","2017-10-17" "123","IND","25632349",

    0熱度

    1回答

    我有一個數據幀中pyspark: ratings = spark.createDataFrame( sc.textFile("transactions.json").map(lambda l: json.loads(l)), ) ratings.show() +--------+-------------------+------------+----------+--------