pyspark

    4熱度

    1回答

    我使用IPython的筆記本與剛剛添加以下的筆記本電腦運行PySpark: import os os.chdir('../data_files') import sys import pandas as pd %pylab inline from IPython.display import Image os.environ['SPARK_HOME']="spark-1.3.1-bin

    2熱度

    1回答

    我的例子JSON模式(切斷由於尺寸): |-- LinearScheduleResult: struct (nullable = true) | |-- Build: string (nullable = true) | |-- EndTimestamp: string (nullable = true) | |-- Errors: array (nullable = true) | |

    0熱度

    1回答

    我有一個RDD,我目前正在使用combineByKey對基本描述性統計信息(count,sum,std,mean等)進行分組和計算。它工作正常,但似乎RDD.stats()函數將做我所需要的。 現在,我做了以下內容: text_file = sc.textFile(input_source_file) text_file.flatMap(zonal.zonal_stats)\ .co

    2熱度

    2回答

    正如標題所描述,說我有兩個RDDS rdd1 = sc.parallelize([1,2,3]) rdd2 = sc.parallelize([1,0,0]) 或 rdd3 = sc.parallelize([("Id", 1),("Id", 2),("Id",3)]) rdd4 = sc.parallelize([("Result", 1),("Result", 0),("Result"

    3熱度

    2回答

    作爲後續my previous question,我怎麼映射了一個RDD地方,即收集數據到本地流實際上並沒有使用collect(因爲數據過於龐大)。 具體來說,我想寫類似 from subprocess import Popen, PIPE with open('out','w') as out: with open('err','w') as err: myproc =

    42熱度

    9回答

    我正在使用spark 1.4.0-rc2,所以我可以使用python 3和spark。如果我添加export PYSPARK_PYTHON=python3我的.bashrc文件,我可以交互使用Python 3,運行火花但是,如果我想以本地模式運行一個獨立的程序,我得到一個錯誤: Exception: Python in worker has different version 3.4 than t

    0熱度

    1回答

    不久前,我問了一個關於使用多個鍵組織和構造RDD的問題。見PySpark Suggestion on how to organize RDD 在我目前RDD每個對象都包含一個start_time,end_time,id和position。我想分組id和time。如果兩個或多個對象具有相同的id或任何重疊時間,我會將它們組合在一起。 尋找重疊的邏輯非常簡單: if x1.start_time > x

    0熱度

    1回答

    由於全局解釋器鎖定,通常python無法在多線程中正常工作。 這是否也影響以多線程本地模式運行的pyspark應用程序(local [n])?

    1熱度

    3回答

    我在Spark做了一個小實驗,我遇到了麻煩。 wordCounts is : [('rat', 2), ('elephant', 1), ('cat', 2)] # TODO: Replace <FILL IN> with appropriate code from operator import add totalCount = (wordCounts .map(lam

    8熱度

    1回答

    我知道我可以使用SparkConf.set('spark.app.name',...)設置appName之前創建SparkContext。 但是,我想要改變應用程序的名稱,即在創建了SparkContext之後。 唉,設置sc.appName不會改變yarn application -list顯示的工作方式。 有沒有辦法?