rdd

    0熱度

    2回答

    我使用上Pyspark以下代碼導入從BigQuery資料: table_data = sc.newAPIHadoopRDD( 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat', 'org.apache.hadoop.io.LongWritable', 'com.google.gson.Js

    1熱度

    1回答

    我無法找到答案。 如果我有RDD rdd = sc.parallelize([('a', [1,2,3]), ('b',[4,5,6])]) 其中每個值都是一個列表。 有沒有方法可以拆分RDD,使得它成爲 sc.parallelize([('a',1),('a',2),('a',3),('b',4),('b',5),('b'6)]) 現在在哪裏每個值是列表的元素之一,搭配的關鍵。 我大致知

    0熱度

    3回答

    我有一個RDD看起來像這樣 [(3,6,7), (2,5,7), (4,3,7)] 我想獲得的平均第一要素,以及第二個元素之和的總和第三要素。這是輸出是什麼樣子: (3,14,21) 是否有可能做到這一點使用pyspark?

    1熱度

    2回答

    我有一個按鍵(index:Int)分組的RDD [(Int,Iterable [Coordinates])]]。座標與成員等級: latitude: Double, longitude: Double 我想創建打印或創建一個CSV文件,這將是以下形式(每個數據點的行): index,latitude,longitude 隨着非分組RDD [(智力,座標),它的工作是這樣的: val textO

    0熱度

    1回答

    有兩種RDDS,第一個是一個(鍵,值)對rdd_1: key1,[value1, value2] 第二個也是(鍵,值)對rdd_2: (key2, value3), (key3, value4)... 我想加盟rdd1和rdd2和rdd_1的value1 & value2爲的。我需要的結果是 key1, [value1: value3, value2: value4] 我可以處理rdd

    1熱度

    1回答

    我正在使用Spark RDD。我需要追加/連接兩個類型爲Set的RDD。 scala> var ek: RDD[Set[Int]] = sc.parallelize(Seq(Set(7))) ek: org.apache.spark.rdd.RDD[Set[Int]] = ParallelCollectionRDD[31] at parallelize at <console>:32 sca

    0熱度

    2回答

    我想實現扁平化利用火花/斯卡拉API記錄的邏輯拉平記錄。我正在嘗試使用地圖功能。 能否請你幫我解決這個問題最簡單的方法? 假設,對於一個給定鑰匙我需要有3個過程代碼 輸入數據幀 - > Keycol|processcode John |1 Mary |8 John |2 John |4 Mary |1 Mary |7 ================= =============

    0熱度

    2回答

    我讀了reducebyKey對大數據集來說是一個更好的選擇,可以減少數據的混洗,並以這種方式提高性能。我想轉換我的使用groupByKey。首先,它必須被轉換爲RDD: val linksNew = links.map(convertToRelationship) .flatMap(bidirRelationship) 鏈接是一個數據集和數據集的API沒有reduceByKey。當使

    -1熱度

    1回答

    我試圖將RDD(key,value)轉換爲RDD(key,iterable[value]),與groupByKey方法返回的輸出相同。 但由於groupByKey效率不高,我試圖在RDD上使用combineByKey,但它不起作用。下面是使用的代碼: val data= List("abc,2017-10-04,15.2", "abc,2017-10-03,19.67",

    0熱度

    1回答

    我有下面的RDD。 [[1,101,001,100,product1], [2,102,001,105,product2], [3,103,002,101,product3]] 預期成果是在度假心情 [('001', ['product1','100'],['product2','105']),('002',['product3','101'])]