pyspark

2熱度

2回答

pyspark --- randomForests使用「categoricalFeaturesInfo」指定分類變量

如何在pyspark randomForests中指定categoricalFeaturesInfo？文件是不是在該很清楚，我嘗試了一些這樣的： categoricalFeaturesInfo = {（12,4）} categoricalFeaturesInfo = {（12-> 4）} categoricalFeaturesInfo = {Map [int，int]（12,4）} ...等等，

6熱度

2回答

來自同一來源的加入兩個DataFrames

我使用pyspark（Apache的星火）的數據幀API和正在運行到以下問題：當我連接兩個DataFrames從同一個源數據幀，所產生的DF起源會爆炸成很多行。一個簡單的例子：我與n行從磁盤加載數據幀： df = sql_context.parquetFile('data.parquet') 然後，我創建從該源的兩個DataFrames。 df_one = df.select('col1'

8熱度

3回答

如何在Spark中更有效地加載Parquet文件（pySpark v1.2.0）

我正在加載高維Parquet文件，但只需要幾列。我當前的代碼看起來像： dat = sqc.parquetFile(path) \ .filter(lambda r: len(r.a)>0) \ .map(lambda r: (r.a, r.b, r.c)) 我發生了什麼事的心理模型是它加載的所有數據，然後扔出去，我不想要的列。我顯然更喜歡它甚至沒有閱讀這些專欄，從

3熱度

3回答

PySpark reduceByKey？添加鍵/元組

我有以下數據，我想要做的是 [(13, 'D'), (14, 'T'), (32, '6'), (45, 'T'), (47, '2'), (48, '0'), (49, '2'), (50, '0'), (51, 'T'), (53, '2'), (54, '0'), (13, 'A'), (14, 'T'), (32, '6'), (45, 'A'), (47, '2'), (48, '0')

9熱度

3回答

節省大量星火數據幀在S3一個JSON文件

我試着去挽救一個Spark數據框（的超過20G）在Amazon S3的一個JSON文件，我的代碼來保存數據幀是這樣的： dataframe.repartition(1).save("s3n://mybucket/testfile","json") 但是我從S3得到一個錯誤「您提出的上傳超過了最大允許的大小」，我知道，亞馬遜允許的最大文件大小爲5GB。是否有可能使用S3多上載有火花？或者有另一

0熱度

2回答

在Spark中添加日期字段到RDD

我有一個非常簡單的RDD叫做STjoin，我在這個RDD上傳遞了一個簡單的函數來獲取表示日期時間的字符串。該代碼通過了懶惰評估，但如果我運行最後一行（STjoinday.take(5)），則出現錯誤。 def parsedate(x): try: dt=dateutil.parser.parse(x[1]).date() except: dt=date

2熱度

1回答

pySpark以分佈式方式查找中位數？

是否可以通過分佈的方式找到火花中位數？我目前發現：Sum，Average，Variance，Count使用下面的代碼： dataSumsRdd = numRDD.filter(lambda x: filterNum(x[1])).map(lambda line: (line[0], float(line[1])))\ .aggregateByKey((0.0, 0.0, 0.0),

12熱度

8回答

Get CSV到Spark數據框

我在Spark上使用python，並希望將csv獲取到數據框中。 Spark SQL的documentation奇怪地不提供CSV作爲源的解釋。我發現Spark-CSV，但是我有問題與文件兩個部分組成： "This package can be added to Spark using the --jars command line option. For example, to include

0熱度

1回答

Apache Spark：Master刪除了我們的應用程序：在大型RDD上使用saveAsTextFile時失敗

我在裝有4GB RAM和2個內核的機器上以Spark Standalone模式加載20 GB的文件，請執行一些處理，然後嘗試保存使用saveAsTextFile將結果（用於測試目的）導出到文本文件。如果我手動從原始輸入文件中提取幾千行並在其上運行代碼，它就像一個魅力，導致期望的部分xxxxx文件。但是，如果我提供了整個20GB的文件作爲輸入，它會開始罰款，然後掛某處的過程，並在設在夜間運行將失

2熱度

2回答

Spark中的第一個代碼（Python）

我是Spark新手，試圖創建一些簡單的東西。我有一個2列的文件：日期和值。對於每第6次約會，我想使用線性迴歸給出基於之前5個值的投影。然後將它寫出到一個文件中，並將實際值與預計值之間的誤差寫入第3列。到目前爲止，我有這樣的： from pyspark import SparkContext, SparkConf from datetime import datetime from ti