rdd

    0熱度

    1回答

    我有以下目錄結構: /數據/ MODELA /數據/ modelB /數據/ modelC .. 每這些文件的數據格式(編號,分數),我必須爲他們分別做以下 - 1)按分數排序和排序分數的降序(DF_1:得分,計數) 2)從DF_1計算累積頻率爲每個分類後的組分數(DF_2的:從DF_2得分,計數,cumFreq) 3)選擇位於累積頻率5-10之間:從DF_3(DF_3得分,cumFreq) 4)

    1熱度

    2回答

    我正在創建一個新的DataFrame,其中包含一些來自Join的記錄。 val joined_df = first_df.join(second_df, first_df.col("key") === second_df.col("key") && second_df.col("key").isNull, "left_outer") joined_df.repartition(1) join

    2熱度

    1回答

    我正在嘗試使用類似於Dataframe中的isin的列表中的元素來過濾arraybuffer。 val booksDF: DataFrame = ... val Books_Category = List("A","B","C") val action_books = booksDF.filter($"bk_category_cd" isin (Books_Category: _*)) 我

    -1熱度

    2回答

    我有2 RDD如下: COL1:3,4,3,2,3,5,7,6,5 COL2 :1,0,0,1,1,1,0,1,0 數據類型也是Int。 我需要計算相關矩陣,讓我知道我們如何能夠用SparkRDD做 預先感謝您:)

    0熱度

    1回答

    當我將DataFrame轉換爲LabeledPoint RDD時,遇到了一個問題,他的錯誤困擾了我好幾天。希望你們中的一些人能幫助我解決它。非常感謝! 我想將一個DataFrame轉換爲一個RDD [標記點],因爲我需要訓練一個隨機森林模型。首先,我刪除了所有具有空值的行: def na_drop(data: org.apache.spark.sql.DataFrame): org.apache.

    2熱度

    2回答

    我想要做的只是從rdd中提取一些信息,並使用Spark(scala)將其放入數據框中。 到目前爲止,我所做的就是創建一個流管道,連接到卡夫卡的話題,並把話題的內容設置在RDD: val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -

    0熱度

    2回答

    我正在將多個html文件讀入Spark中的數據框。 我使用一個自定義轉換的HTML元素列在數據幀UDF val dataset = spark .sparkContext .wholeTextFiles(inputPath) .toDF("filepath", "filecontent") .withColumn("biz_name", parseDocVa

    -1熱度

    1回答

    我有一個RDD,其中包含我的自定義類OmnitureData的對象類型。 OmnitureData數據包含1000個數據變量。我想將數據寫入S3。 data: RDD[OmnitureData] data.saveAsTextFile(path) 在S3中,我看到的數據: [email protected] [email protected] [email protected] [em

    1熱度

    1回答

    我在火花的工作得到一個錯誤,是令人驚訝的我: Total size of serialized results of 102 tasks (1029.6 MB) is bigger than spark.driver.maxResultSize (1024.0 MB) 我的工作是這樣的: def add(a,b): return a+b sums = rdd.mapPartitions(f

    0熱度

    1回答

    我正在使用spark來處理大文件,我有12個分區。 我有rdd1和rdd2我做了他們之間的連接,比選擇(rdd3)。 我的問題是,我諮詢了最後一個分區比其他分區太大,從分區1到分區但分區12 9100000 recodrs。 所以我分9100000/45000 =~ 203。我重新分區我的rdd3到214(203+11) 但我最後一個分區仍然太大。 我如何平衡我的分區的大小? 我寫我自己的自定義分