pyspark

4熱度

1回答

我使用IPython的筆記本與剛剛添加以下的筆記本電腦運行PySpark： import os os.chdir('../data_files') import sys import pandas as pd %pylab inline from IPython.display import Image os.environ['SPARK_HOME']="spark-1.3.1-bin

2熱度

1回答

星火SQL JSON布爾評估

0熱度

1回答

在分組的RDD（Spark）上調用.stats（）

我有一個RDD，我目前正在使用combineByKey對基本描述性統計信息（count，sum，std，mean等）進行分組和計算。它工作正常，但似乎RDD.stats（）函數將做我所需要的。現在，我做了以下內容： text_file = sc.textFile(input_source_file) text_file.flatMap(zonal.zonal_stats)\ .co

2熱度

2回答

加入兩（非）配對RDDS做一個數據幀

正如標題所描述，說我有兩個RDDS rdd1 = sc.parallelize([1,2,3]) rdd2 = sc.parallelize([1,0,0]) 或 rdd3 = sc.parallelize([("Id", 1),("Id", 2),("Id",3)]) rdd4 = sc.parallelize([("Result", 1),("Result", 0),("Result"

3熱度

2回答

如何在本地映射RDD？

作爲後續my previous question，我怎麼映射了一個RDD地方，即收集數據到本地流實際上並沒有使用collect（因爲數據過於龐大）。具體來說，我想寫類似 from subprocess import Popen, PIPE with open('out','w') as out: with open('err','w') as err: myproc =

42熱度

9回答

如何在spark中設置驅動程序的python版本？

我正在使用spark 1.4.0-rc2，所以我可以使用python 3和spark。如果我添加export PYSPARK_PYTHON=python3我的.bashrc文件，我可以交互使用Python 3，運行火花但是，如果我想以本地模式運行一個獨立的程序，我得到一個錯誤： Exception: Python in worker has different version 3.4 than t

0熱度

1回答

PySpark使用函數創建多重索引配對RDD

不久前，我問了一個關於使用多個鍵組織和構造RDD的問題。見PySpark Suggestion on how to organize RDD 在我目前RDD每個對象都包含一個start_time，end_time，id和position。我想分組id和time。如果兩個或多個對象具有相同的id或任何重疊時間，我會將它們組合在一起。尋找重疊的邏輯非常簡單： if x1.start_time > x

0熱度

1回答

GIL是否影響了本地應用程序？

由於全局解釋器鎖定，通常python無法在多線程中正常工作。這是否也影響以多線程本地模式運行的pyspark應用程序（local [n]）？

1熱度

3回答

火花減少和地圖問題

我在Spark做了一個小實驗，我遇到了麻煩。 wordCounts is : [('rat', 2), ('elephant', 1), ('cat', 2)] # TODO: Replace <FILL IN> with appropriate code from operator import add totalCount = (wordCounts .map(lam

8熱度

1回答

我可以隨時更改SparkContext.appName嗎？

我知道我可以使用SparkConf.set('spark.app.name',...)設置appName之前創建SparkContext。但是，我想要改變應用程序的名稱，即在創建了SparkContext之後。唉，設置sc.appName不會改變yarn application -list顯示的工作方式。有沒有辦法？