pyspark

3熱度

1回答

如何計算以前3個值的窗口大小的美元滾動中值？輸入數據 dollars timestampGMT 25 2017-03-18 11:27:18 17 2017-03-18 11:27:19 13 2017-03-18 11:27:20 27 2017-03-18 11:27:21 13 2017-03-18 11:27:22 43 2017-03-18 11:27:23

0熱度

1回答

火花管道中的數據更改

因此，我使用RDD.pipe（）函數管道化一些二進制數據到「貓」，當我收到它的數據被更改，所以我不能使用它。我死了如何修復它？我使用python3 中的代碼和數據的標準桿如下： line = sc.binaryFiles("files/pipevids") line.map(lambda x:x[1]).pipe("cat").take(1) 和原始數據： b'RIFF\xeaU\n\x0

0熱度

1回答

Spark-submit無法找到本地文件

我已經編寫了一個非常簡單的python腳本來測試我的火花流的想法，並計劃在我的本地機器上運行它來混亂一點點。下面是一個命令行： spark-submit spark_streaming.py localhost 9999 但終端丟給我一個錯誤： Error executing Jupyter command '<the/spark_streaming.py/file/path>': [Errn

0熱度

2回答

使用spark python分割dataFrame

我在Spark中使用dataframe以tablular格式拆分和存儲數據。我在文件中的數據看起來如下 - {"click_id": 123, "created_at": "2016-10-03T10:50:33", "product_id": 98373, "product_price": 220.50, "user_id": 1, "ip": "10.10.10.10"} {"click_i

0熱度

1回答

加入兩個具有相同分區的DataFrame後，哪些屬性具有Spark DataFrame？

說，我有some_col列 df_1 = df_1.repartition(50, 'some_col') df_2 = df_2.repartition(50, 'some_col') df_3 = df_1.join(df_2, on='some_col') 2個星火DataFrames我認爲df_3應該由some_col也劃分，有50個分區，但我的實驗表明，至少在過去的條件是不正確

0熱度

1回答

壓縮Conda環境打破Audioread的後端（Python/Pyspark）

我以前使用conda構建了pyspark環境來打包所有的依賴關係，並在運行時將它們發送到所有節點。以下是我創造環境： `conda/bin/conda create -p conda_env --copy -y python=2 \ numpy scipy ffmpeg gcc libsndfile gstreamer pygobject audioread librosa` `zip -r

0熱度

1回答

PySpark：替換基於準則

我具有低於 +++++++++++++++++++++ colA | colB | colC | +++++++++++++++++++++ 123 | 3 | 0| 222 | 0 | 1| 200 | 0 | 2| 一個數據幀爲數據幀顯示的值I要爲1的值來代替colB和colC的值如果它們是大於0 我能夠使用na.fill函數，如果我需要填充0的零。但我不知道如何做到這一點。

0熱度

1回答

存儲蟒蛇火花數據到一個列表，並通過作爲參數

我有一個python火花文件： from pyspark.sql import Row from pyspark.sql import SparkSession from pyspark.sql import SQLContext import pyspark.sql.functions as psf import json spark = SparkSession \ .b

1熱度

1回答

如何檢查列的數值是否包含通過SQL查詢的字母

我在AWS S3中有一個CSV文件，正在加載到AWS Glue，即用於對來自S3的源數據文件應用轉換。它提供了PySpark腳本環境。數據看起來有點像這樣： "ID","CNTRY_CD","SUB_ID","PRIME_KEY","DATE" "123","IND","25635525","11243749772","2017-10-17" "123","IND","25632349",

0熱度

1回答

添加列到數據幀和更新pyspark

我有一個數據幀中pyspark： ratings = spark.createDataFrame( sc.textFile("transactions.json").map(lambda l: json.loads(l)), ) ratings.show() +--------+-------------------+------------+----------+--------