rdd

    1熱度

    3回答

    我創建了一個spark工作,每天從我的hdfs讀入一個文本文件,並從文本文件的每一行中提取唯一鍵。每個文本文件中大約有50000個鍵。相同的數據然後通過提取的密鑰進行過濾並保存到hdfs。 我想在我的hdfs中創建一個目錄,其結構爲:hdfs://.../date/key,它包含已過濾的數據。問題在於寫入hdfs需要很長的時間,因爲密鑰太多了。 這是寫現在的方式: val inputData =

    2熱度

    1回答

    如何使用Spark scala遍歷下面的RDD。我想要打印Seq中與關聯密鑰相關的每個值 res1: org.apache.spark.rdd.RDD[(java.lang.String, Seq[java.lang.String])] = MapPartitionsRDD[6] at groupByKey at <console>:14 我試過下面的代碼。 val ss=mapfile.ma

    0熱度

    1回答

    所以我對函數式編程以及Spark和Scala相當新穎,所以如果這很明顯,請原諒我......但基本上我有一個HDFS文件列表,一定的標準,即是這樣的: val List = ( "hdfs:///hive/some.db/BigAssHiveTable/partyear=2014/partmonth=06/partday=01/000140_0", "hdfs:///hive/some.db/B

    81熱度

    3回答

    RDD'smap和mapPartitions方法有什麼區別? flatMap的行爲如同map還是像mapPartitions?謝謝。 (編輯) 即有什麼區別(無論是語義或執行方面) def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { r