rdd

0熱度

1回答

我有以下目錄結構： /數據/ MODELA /數據/ modelB /數據/ modelC .. 每這些文件的數據格式（編號，分數），我必須爲他們分別做以下 - 1）按分數排序和排序分數的降序（DF_1：得分，計數） 2）從DF_1計算累積頻率爲每個分類後的組分數（DF_2的：從DF_2得分，計數，cumFreq） 3）選擇位於累積頻率5-10之間：從DF_3（DF_3得分，cumFreq） 4）

1熱度

2回答

星火數據幀計數非常慢

我正在創建一個新的DataFrame，其中包含一些來自Join的記錄。 val joined_df = first_df.join(second_df, first_df.col("key") === second_df.col("key") && second_df.col("key").isNull, "left_outer") joined_df.repartition(1) join

2熱度

1回答

如何使用排除列表（類似於isin）過濾掉RDD中的元素？

我正在嘗試使用類似於Dataframe中的isin的列表中的元素來過濾arraybuffer。 val booksDF: DataFrame = ... val Books_Category = List("A","B","C") val action_books = booksDF.filter($"bk_category_cd" isin (Books_Category: _*)) 我

-1熱度

2回答

如何計算相關矩陣與2 RDD火花使用Scala

我有2 RDD如下： COL1：3,4,3,2,3,5,7,6,5 COL2 ：1,0,0,1,1,1,0,1,0 數據類型也是Int。我需要計算相關矩陣，讓我知道我們如何能夠用SparkRDD做預先感謝您:)

0熱度

1回答

DataFrame到LabeledPoint：df.collect（）錯誤

當我將DataFrame轉換爲LabeledPoint RDD時，遇到了一個問題，他的錯誤困擾了我好幾天。希望你們中的一些人能幫助我解決它。非常感謝！我想將一個DataFrame轉換爲一個RDD [標記點]，因爲我需要訓練一個隨機森林模型。首先，我刪除了所有具有空值的行： def na_drop(data: org.apache.spark.sql.DataFrame): org.apache.

2熱度

2回答

如何提取RDD內容並使用spark（scala）輸入DataFrame

我想要做的只是從rdd中提取一些信息，並使用Spark（scala）將其放入數據框中。到目前爲止，我所做的就是創建一個流管道，連接到卡夫卡的話題，並把話題的內容設置在RDD： val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -

0熱度

2回答

在Apache Spark中爲每行迭代添加作用域變量

我正在將多個html文件讀入Spark中的數據框。我使用一個自定義轉換的HTML元素列在數據幀UDF val dataset = spark .sparkContext .wholeTextFiles(inputPath) .toDF("filepath", "filecontent") .withColumn("biz_name", parseDocVa

-1熱度

1回答

將RDD [OmnitureData]寫入S3

我有一個RDD，其中包含我的自定義類OmnitureData的對象類型。 OmnitureData數據包含1000個數據變量。我想將數據寫入S3。 data: RDD[OmnitureData] data.saveAsTextFile(path) 在S3中，我看到的數據： [email protected] [email protected] [email protected] [em

1熱度

1回答

如何在減少前避免較大的中間結果？

我在火花的工作得到一個錯誤，是令人驚訝的我： Total size of serialized results of 102 tasks (1029.6 MB) is bigger than spark.driver.maxResultSize (1024.0 MB) 我的工作是這樣的： def add(a,b): return a+b sums = rdd.mapPartitions(f

0熱度

1回答

用火花指定分區大小

我正在使用spark來處理大文件，我有12個分區。我有rdd1和rdd2我做了他們之間的連接，比選擇（rdd3）。我的問題是，我諮詢了最後一個分區比其他分區太大，從分區1到分區但分區12 9100000 recodrs。所以我分9100000/45000 =~ 203。我重新分區我的rdd3到214(203+11) 但我最後一個分區仍然太大。我如何平衡我的分區的大小？我寫我自己的自定義分