pyspark

0熱度

2回答

11熱度

4回答

什麼是保存在星火\ PySpark

\負荷模型我使用PySpark和MLlib星火1.3.0工作的正確方法，我需要保存和載入我的模型。我用這樣的代碼（來自官方documentation拍攝） from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating data = sc.textFile("data/mllib/als/test.d

1熱度

2回答

如何使用Maven構建Spark 1.2（給出java.io.IOException：無法運行程序「javac」）？

我想用Maven構建Spark 1.2。我的目標是在Hadoop 2.2上使用PySpark和YARN。我看到，這隻有通過用Maven構建Spark纔有可能。首先，這是真的嗎？如果是這樣，那麼下面的日誌中有什麼問題？我該如何糾正？ C:\Spark\spark-1.2.0>mvn -Pyarn -Phadoop-2.2 -Dhadoop.version=2.2.0 -DskipTests c

3熱度

2回答

爲獨立應用程序導入pyspark

我正在學習使用Spark。到目前爲止，我遵循this文章。當我嘗試導入pyspark時，出現以下錯誤。在pyspark有一個文件accumulators.py。 >>> import os >>> import sys >>> os.environ['SPARK_HOME'] = "E:\\spark-1.2.0" >>> sys.path.append("E:\\spark-1.2.0\\

-1熱度

1回答

在Maven上構建Spark之後安裝Spark

我一直在羣集上安裝Spark，一直在苦苦掙扎。因爲集羣使用Hadoop 2.2，並且因爲我想在YARN上使用PySpark。我必須使用MAVEN來構建Spark。這個過程的輸出是一個.jar文件：spark-assembly-1.2.0-hadoop2.2.0.jar（我不熟悉Java）。如果我嘗試在使用Java的任何節點上執行該文件，該.jar文件將不會運行（「無法找到或加載主類」）。我發現

6熱度

1回答

將Apache Spark mllib模型保存在python中

我正在嘗試將合適的模型保存到Spark中的文件中。我有一個Spark集羣，它訓練一個RandomForest模型。我想保存並重新使用另一臺機器上的擬合模型。我在網上閱讀了一些建議做java序列化的文章。我在做python的等價物，但它不起作用。有什麼竅門？ TypeError: can't pickle lock objects 我使用Apache 1.2.0星火： model = Rando

7熱度

2回答

spark-submit和pyspark有什麼區別？

如果我啓動pyspark，然後運行這個命令： import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/') 一切都OK。但是，如果我嘗試通過命令行做同樣的事情，引發提交，我得到一個錯誤： Command: /usr/local/spark/bin/spark-submit my_script.py coll

3熱度

1回答

如何在火花中將rdd數據分成兩部分？

我在Spark RDD中有一個數據，我想將它分成兩部分，比如0.7。例如，如果RDD看起來是這樣的： [1,2,3,4,5,6,7,8,9,10] 我想把它分成rdd1： [1,2,3,4,5,6,7] 和rdd2： [8,9,10] 隨着規模0.7。 rdd1和rdd2應該每次都是隨機的。我想是這樣的： seed = random.randint(0,10000) rdd1 = d

2熱度

3回答

PySpark：如何閱讀許多JSON文件，每個文件有多個記錄

我有一個存儲在S3存儲桶中的大型數據集，但它不是一個單獨的大文件，而是由許多（確切的說是113K）單個JSON文件組成的，其中每個包含100-1000個觀察值。這些觀察不是最高級別的，但需要在每個JSON中進行一些導航才能訪問。即 json [「interact」]是一個詞典列表。我試圖利用Spark/PySpark（版本1.1.1）解析並減少這些數據，但是我找不到正確的方法將它加載到RDD中

0熱度

1回答

返回與Pyspark中給定查詢相同行的數據

在Pyspark中，Spark/Hadoop輸入語言：我想在數據集中查找關鍵字，如「SJC」，並從第二列返回對應於找到關鍵字「SJC」的行。例如，下面的數據集上寫着： [年] [延遲] [地址] [航班號] | 1987 | | -5 | | SJC | | 500 | | 1987 | | -5 | | SJC | | 250 | | 1987 | | 07 | | SFO | | 700 |