pyspark

1熱度

1回答

以下程序在zip步驟中失敗。 x = sc.parallelize([1, 2, 3, 1, 2, 3]) y = sc.parallelize([1, 2, 3]) z = x.distinct() print x.zip(y).collect() 產生的錯誤取決於是否指定了多個分區。我明白兩個RDDS [必須]具有相同數目的分區和相同數量的每個分區中的元素。解決此限制的最佳方法

7熱度

2回答

如何通過火花中的多個鍵組合？

我有一堆組合鍵和值的形式。例如， tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ] 我想在此集合，在那裏我可以聚集基於ID [1..1]或PD [1..1]的信息執行S

1熱度

1回答

如何在Amazon EMR上運行PySpark作業（使用自定義模塊）？

我想運行一個PySpark程序，該程序在我的（本地）機器上運行得非常好。我有一個Amazon Elastic Map Reduce集羣正在運行，並安裝了所有必需的依賴項（來自PyPI的Spark，Python模塊）。現在，我該如何運行使用一些自定義模塊的PySpark作業？我已經嘗試了很多事情，也許半天，現在，無濟於事。到目前爲止，我已經找到了最好的命令是： /home/hadoop/spar

5熱度

3回答

火花提交時沒有名爲numpy的模塊

我想提交一個導入numpy的python文件，但我得到一個no module named numpy錯誤。 $ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_als.py Traceback (most recent call last): File "/usr/local/

0熱度

1回答

PySpark不具有Word2VecModel

我試圖訪問的pyspark 1.2.0版的Spark的getVectors()方法訪問getVectors方法，但pyspark州 - input.cache() word2vec = Word2Vec() model = word2vec.fit(input) vector = model.getVectors() AttributeError: 'Word2VecModel' obj

2熱度

1回答

指定由pyspark發佈的jvm的選項

pyspark腳本在啓動連接到指定的jvm時使用的jvm選項的方式/位置？我特別感興趣的是指定jvm調試選項，例如 -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=5005 謝謝。

6熱度

1回答

Python數據包的函數，用於udf（）Spark數據幀

對於通過pyspark的Spark數據幀，我們可以使用pyspark.sql.functions.udf創建user defined function (UDF)。我在想我是否可以使用Python包中的任何函數udf()，例如numpy的np.random.normal？

3熱度

1回答

Java安裝問題（使用Spark難）

我想讓Spark在本地運行。當我啓動它時，出現以下錯誤，提示我的java安裝（或其路徑）有些奇怪。這是在Mac OS Yosemite上。 line 190: /usr/java/jdk1.7.0_51/bin/java/bin/java/bin/java: No such file or directory 任何建議如何解決這個問題？讓我知道如果你需要更多的信息（我不知道從哪裏開始）編輯：

3熱度

3回答

我可以將熊貓數據框轉換爲火花rdd嗎？

PBM：一）讀本地文件到熊貓數據幀說PD_DF B）操縱/ Massge的PD_DF和列添加到數據幀 C）需要使用火花寫PD_DF到HDFS。我該怎麼做？

3熱度

1回答

Spark MLlib軟件包NaN權重

我試圖在pyspark上運行Spark MLlib軟件包，並附帶一個測試機器學習數據集。我將數據集分成半訓練數據集和半測試數據集。以下是我建立模型的代碼。但是，它顯示了所有因變量中NaN，NaN的重量。無法弄清楚爲什麼。但是，當我嘗試使用StandardScaler函數來標準化數據時，它很有用。 model = LinearRegressionWithSGD.train(train_data, s