0
SparkSession.createDataset()
只允許List, RDD, or Seq
- 但它不支持JavaPairRDD
。如何將JavaPairRDD轉換爲數據集?
所以,如果我有一個JavaPairRDD<String, User>
,我想創建一個從Dataset
,會爲SparkSession.createDataset()
限制的可行workround創建一個包裝UserMap
類,它包含兩個字段:String
和User
。
然後做spark.createDataset(userMap, Encoders.bean(UserMap.class));
?
在我的情況,我有很多的變換在'JavaPairRdd pairRDD ...'到達。所以如果我調用'pairRDD.collect()',所有'Dataset'優化都將丟失。 –
Glide