pyspark

    2熱度

    2回答

    如何在pyspark randomForests中指定categoricalFeaturesInfo? 文件是不是在該很清楚,我嘗試了一些這樣的: categoricalFeaturesInfo = {(12,4)} categoricalFeaturesInfo = {(12-> 4)} categoricalFeaturesInfo = {Map [int,int](12,4)} ...等等,

    6熱度

    2回答

    我使用pyspark(Apache的星火)的數據幀API和正在運行到以下問題: 當我連接兩個DataFrames從同一個源數據幀,所產生的DF起源會爆炸成很多行。一個簡單的例子: 我與n行從磁盤加載數據幀: df = sql_context.parquetFile('data.parquet') 然後,我創建從該源的兩個DataFrames。 df_one = df.select('col1'

    8熱度

    3回答

    我正在加載高維Parquet文件,但只需要幾列。我當前的代碼看起來像: dat = sqc.parquetFile(path) \ .filter(lambda r: len(r.a)>0) \ .map(lambda r: (r.a, r.b, r.c)) 我發生了什麼事的心理模型是它加載的所有數據,然後扔出去,我不想要的列。我顯然更喜歡它甚至沒有閱讀這些專欄,從

    3熱度

    3回答

    我有以下數據,我想要做的是 [(13, 'D'), (14, 'T'), (32, '6'), (45, 'T'), (47, '2'), (48, '0'), (49, '2'), (50, '0'), (51, 'T'), (53, '2'), (54, '0'), (13, 'A'), (14, 'T'), (32, '6'), (45, 'A'), (47, '2'), (48, '0')

    9熱度

    3回答

    我試着去挽救一個Spark數據框(的超過20G)在Amazon S3的一個JSON文件,我的代碼來保存數據幀是這樣的: dataframe.repartition(1).save("s3n://mybucket/testfile","json") 但是我從S3得到一個錯誤「您提出的上傳超過了最大允許的大小」,我知道,亞馬遜允許的最大文件大小爲5GB。 是否有可能使用S3多上載有火花?或者有另一

    0熱度

    2回答

    我有一個非常簡單的RDD叫做STjoin,我在這個RDD上傳遞了一個簡單的函數來獲取表示日期時間的字符串。 該代碼通過了懶惰評估,但如果我運行最後一行(STjoinday.take(5)),則出現錯誤。 def parsedate(x): try: dt=dateutil.parser.parse(x[1]).date() except: dt=date

    2熱度

    1回答

    是否可以通過分佈的方式找到火花中位數?我目前發現:Sum,Average,Variance,Count使用下面的代碼: dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\ .aggregateByKey((0.0, 0.0, 0.0),

    12熱度

    8回答

    我在Spark上使用python,並希望將csv獲取到數據框中。 Spark SQL的documentation奇怪地不提供CSV作爲源的解釋。 我發現Spark-CSV,但是我有問題與文件兩個部分組成: "This package can be added to Spark using the --jars command line option. For example, to include

    0熱度

    1回答

    我在裝有4GB RAM和2個內核的機器上以Spark Standalone模式加載20 GB的文件,請執行一些處理,然後嘗試保存使用saveAsTextFile將結果(用於測試目的)導出到文本文件。 如果我手動從原始輸入文件中提取幾千行並在其上運行代碼,它就像一個魅力,導致期望的部分xxxxx文件。 但是,如果我提供了整個20GB的文件作爲輸入,它會開始罰款,然後掛某處的過程,並在設在夜間運行將失

    2熱度

    2回答

    我是Spark新手,試圖創建一些簡單的東西。 我有一個2列的文件:日期和值。 對於每第6次約會,我想使用線性迴歸給出基於之前5個值的投影。 然後將它寫出到一個文件中,並將實際值與預計值之間的誤差寫入第3列。 到目前爲止,我有這樣的: from pyspark import SparkContext, SparkConf from datetime import datetime from ti