pyspark

    1熱度

    1回答

    以下程序在zip步驟中失敗。 x = sc.parallelize([1, 2, 3, 1, 2, 3]) y = sc.parallelize([1, 2, 3]) z = x.distinct() print x.zip(y).collect() 產生的錯誤取決於是否指定了多個分區。 我明白 兩個RDDS [必須]具有相同數目的分區和相同數量的每個分區中的元素。 解決此限制的最佳方法

    7熱度

    2回答

    我有一堆組合鍵和值的形式。例如, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ] 我想在此集合,在那裏我可以聚集基於ID [1..1]或PD [1..1]的信息執行S

    1熱度

    1回答

    我想運行一個PySpark程序,該程序在我的(本地)機器上運行得非常好。 我有一個Amazon Elastic Map Reduce集羣正在運行,並安裝了所有必需的依賴項(來自PyPI的Spark,Python模塊)。 現在,我該如何運行使用一些自定義模塊的PySpark作業?我已經嘗試了很多事情,也許半天,現在,無濟於事。到目前爲止,我已經找到了最好的命令是: /home/hadoop/spar

    5熱度

    3回答

    我想提交一個導入numpy的python文件,但我得到一個no module named numpy錯誤。 $ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_als.py Traceback (most recent call last): File "/usr/local/

    0熱度

    1回答

    我試圖訪問的pyspark 1.2.0版的Spark的getVectors()方法訪問getVectors方法,但pyspark州 - input.cache() word2vec = Word2Vec() model = word2vec.fit(input) vector = model.getVectors() AttributeError: 'Word2VecModel' obj

    2熱度

    1回答

    pyspark腳本在啓動連接到指定的jvm時使用的jvm選項的方式/位置? 我特別感興趣的是指定jvm調試選項,例如 -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=5005 謝謝。

    6熱度

    1回答

    對於通過pyspark的Spark數據幀,我們可以使用pyspark.sql.functions.udf創建user defined function (UDF)。 我在想我是否可以使用Python包中的任何函數udf(),例如numpy的np.random.normal?

    3熱度

    1回答

    我想讓Spark在本地運行。當我啓動它時,出現以下錯誤,提示我的java安裝(或其路徑)有些奇怪。這是在Mac OS Yosemite上。 line 190: /usr/java/jdk1.7.0_51/bin/java/bin/java/bin/java: No such file or directory 任何建議如何解決這個問題?讓我知道如果你需要更多的信息(我不知道從哪裏開始) 編輯:

    3熱度

    3回答

    PBM: 一)讀本地文件到熊貓數據幀說PD_DF B)操縱/ Massge的PD_DF和列添加到數據幀 C)需要使用火花寫PD_DF到HDFS。我該怎麼做 ?

    3熱度

    1回答

    我試圖在pyspark上運行Spark MLlib軟件包,並附帶一個測試機器學習數據集。我將數據集分成半訓練數據集和半測試數據集。以下是我建立模型的代碼。但是,它顯示了所有因變量中NaN,NaN的重量。無法弄清楚爲什麼。但是,當我嘗試使用StandardScaler函數來標準化數據時,它很有用。 model = LinearRegressionWithSGD.train(train_data, s