pyspark

    1熱度

    1回答

    我試圖通過星火兩列做組和正在使用reduceByKey如下: pairsWithOnes = (rdd.map(lambda input: (input.column1,input.column2, 1))) print pairsWithOnes.take(20) 上述地圖命令工作正常,併產生三列,第三個是所有那些。我試圖通過前兩列求和的第三如下: reduced = pairsWithO

    1熱度

    2回答

    我不知道如何準確地形容它,但例子是: 舉兩個RDDS: x = sc.parallelize([("a", 1), ("b", 4)]) y = sc.parallelize([("a", 2), ("c", 8)]) ,我想得到結果: [(("a", 1), ("a", 2)), (("a", 1), ("c", 8)), (("b", 4), ("a", 2)), (("b", 4), ("c

    7熱度

    2回答

    甲previous question建議sc.applicationId提取應用程序ID,但它是不本在PySpark,僅在scala。 那麼,如何找出PySpark進程的應用程序ID(yarn)?

    0熱度

    1回答

    我在運行pyspark(來自ipython-notebook)時遇到了庫錯誤,我想在我的RDD的.mapValues操作中使用Statistics.chiSqTest(obs)pyspark.mllib.stat, ,list(int))對。 的主節點,如果我收集RDD作爲地圖,並逐一查看這些值,像這樣我沒有問題 keys_to_bucketed = vectors.collectAsMap()

    22熱度

    6回答

    我正在使用Spark 1.4進行我的研究並正在努力處理內存設置。我的機器有16GB內存,所以沒有問題,因爲我的文件大小隻有300MB。雖然,當我嘗試使用toPandas()功能我收到以下錯誤星火RDD轉換成數據幀熊貓: serialized results of 9 tasks (1096.9 MB) is bigger than spark.driver.maxResultSize (1024.

    16熱度

    2回答

    我寫了一個類在python中實現分類器。我想使用Apache Spark來並行分類使用此分類器的大量數據點。 我使用Amazon EC2在具有10個從屬設備的集羣上設置了基於ami的自帶python Anaconda發行版。 ami讓我可以遠程使用IPython Notebook。 我已經定義了類BoTree在一個文件中調用BoTree.py在文件夾/root/anaconda/lib/pytho

    0熱度

    1回答

    有內容的PySpark廣播值如下: [('b000jz4hqo', {'rom': 2.4051362683438153, 'clickart': 56.65432098765432, '950': 254.94444444444443, 'image': 3.6948470209339774, 'premier': 9.27070707070707, '000': 6.2181571815718

    7熱度

    1回答

    我嘗試運行IPython的筆記本阿帕奇星火,按照這個insruction(和評論都建議) - link 但是,當我通過這個命令運行IPython的筆記本電腦: ipython notebook --profile=pyspark 我得到這個錯誤: Error: Must specify a primary resource (JAR or Python or R file) 如果我在she

    0熱度

    1回答

    我有這樣的RDD:[(1,1,2),(2,2,3)] 我想有:[1,2,2,3] 提示:中間步:(1,2),(2,3) 我的代碼: suchRDD.flatMap(lambda k:k).distinct() ..會產生: [1,2,3] 這不是我想要的。 (請不要介意不同類型的大括號) 如何減少每個嵌套列表,然後展平得到想要的結果? (請沒有列表理解的例子,提醒:這是星火)

    1熱度

    2回答

    我有幾個LIBSVM文件,我必須使用python在Spark中實現羣集。該文件具有空間作爲分隔符,第一列代表類型[1或-1],其餘全部爲格式爲[1:2.566]的功能。有很多像這樣的列,我想對此進行特徵選擇[最好實現ChiSquareTest模型],然後使用PCA或SVD執行特徵縮減過程。但是,我無法找到一個體面的python火花教程來實現這些過程。 我發現一個link在線,它有一個示例腳本來實現