rdd

1熱度

3回答

我創建了一個spark工作，每天從我的hdfs讀入一個文本文件，並從文本文件的每一行中提取唯一鍵。每個文本文件中大約有50000個鍵。相同的數據然後通過提取的密鑰進行過濾並保存到hdfs。我想在我的hdfs中創建一個目錄，其結構爲：hdfs：//.../date/key，它包含已過濾的數據。問題在於寫入hdfs需要很長的時間，因爲密鑰太多了。這是寫現在的方式： val inputData =

2熱度

1回答

Spark scala RDD遍歷

如何使用Spark scala遍歷下面的RDD。我想要打印Seq中與關聯密鑰相關的每個值 res1: org.apache.spark.rdd.RDD[(java.lang.String, Seq[java.lang.String])] = MapPartitionsRDD[6] at groupByKey at <console>:14 我試過下面的代碼。 val ss=mapfile.ma

0熱度

1回答

在Spark中構建一個在Scala中遞歸聯合的RDD

所以我對函數式編程以及Spark和Scala相當新穎，所以如果這很明顯，請原諒我......但基本上我有一個HDFS文件列表，一定的標準，即是這樣的： val List = ( "hdfs:///hive/some.db/BigAssHiveTable/partyear=2014/partmonth=06/partday=01/000140_0", "hdfs:///hive/some.db/B

81熱度

3回答

Apache Spark：map vs mapPartitions？

RDD'smap和mapPartitions方法有什麼區別？ flatMap的行爲如同map還是像mapPartitions？謝謝。（編輯）即有什麼區別（無論是語義或執行方面） def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { r