pyspark

    0熱度

    2回答

    我在3個節點上有一個分佈式系統,我的數據分佈在這些節點中。例如,我有一個test.csv文件,它存在於所有3個節點,它包含的 row | id, C1, C2, C3 ---------------------- row1 | A1 , c1 , c2 ,2 row2 | A1 , c1 , c2 ,1 row3 | A1 , c11, c2 ,1 row4 | A2 , c1 , c2

    11熱度

    4回答

    \負荷模型我使用PySpark和MLlib星火1.3.0工作的正確方法,我需要保存和載入我的模型。我用這樣的代碼(來自官方documentation拍攝) from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating data = sc.textFile("data/mllib/als/test.d

    1熱度

    2回答

    我想用Maven構建Spark 1.2。我的目標是在Hadoop 2.2上使用PySpark和YARN。 我看到,這隻有通過用Maven構建Spark纔有可能。首先,這是真的嗎? 如果是這樣,那麼下面的日誌中有什麼問題?我該如何糾正? C:\Spark\spark-1.2.0>mvn -Pyarn -Phadoop-2.2 -Dhadoop.version=2.2.0 -DskipTests c

    3熱度

    2回答

    我正在學習使用Spark。到目前爲止,我遵循this文章。當我嘗試導入pyspark時,出現以下錯誤。在pyspark有一個文件accumulators.py。 >>> import os >>> import sys >>> os.environ['SPARK_HOME'] = "E:\\spark-1.2.0" >>> sys.path.append("E:\\spark-1.2.0\\

    -1熱度

    1回答

    我一直在羣集上安裝Spark,一直在苦苦掙扎。 因爲集羣使用Hadoop 2.2,並且因爲我想在YARN上使用PySpark。我必須使用MAVEN來構建Spark。這個過程的輸出是一個.jar文件:spark-assembly-1.2.0-hadoop2.2.0.jar(我不熟悉Java)。如果我嘗試在使用Java的任何節點上執行該文件,該.jar文件將不會運行(「無法找到或加載主類」)。 我發現

    6熱度

    1回答

    我正在嘗試將合適的模型保存到Spark中的文件中。我有一個Spark集羣,它訓練一個RandomForest模型。我想保存並重新使用另一臺機器上的擬合模型。我在網上閱讀了一些建議做java序列化的文章。我在做python的等價物,但它不起作用。有什麼竅門? TypeError: can't pickle lock objects 我使用Apache 1.2.0星火: model = Rando

    7熱度

    2回答

    如果我啓動pyspark,然後運行這個命令: import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/') 一切都OK。但是,如果我嘗試通過命令行做同樣的事情,引發提交,我得到一個錯誤: Command: /usr/local/spark/bin/spark-submit my_script.py coll

    3熱度

    1回答

    我在Spark RDD中有一個數據,我想將它分成兩部分,比如0.7。例如,如果RDD看起來是這樣的: [1,2,3,4,5,6,7,8,9,10] 我想把它分成rdd1: [1,2,3,4,5,6,7] 和rdd2: [8,9,10] 隨着規模0.7。 rdd1和rdd2應該每次都是隨機的。我想是這樣的: seed = random.randint(0,10000) rdd1 = d

    2熱度

    3回答

    我有一個存儲在S3存儲桶中的大型數據集,但它不是一個單獨的大文件,而是由許多(確切的說是113K)單個JSON文件組成的,其中每個包含100-1000個觀察值。這些觀察不是最高級別的,但需要在每個JSON中進行一些導航才能訪問。 即 json [「interact」]是一個詞典列表。 我試圖利用Spark/PySpark(版本1.1.1)解析並減少這些數據,但是我找不到正確的方法將它加載到RDD中

    0熱度

    1回答

    在Pyspark中,Spark/Hadoop輸入語言:我想在數據集中查找關鍵字,如「SJC」,並從第二列返回對應於找到關鍵字「SJC」的行。 例如,下面的數據集上寫着: [年] [延遲] [地址] [航班號] | 1987 | | -5 | | SJC | | 500 | | 1987 | | -5 | | SJC | | 250 | | 1987 | | 07 | | SFO | | 700 |