1
如何在spark中生成多個字段的大(百萬)no記錄。我不從文件讀取數據,但數據將是隨機生成的數據。從我想要的數據創建RDD。如何在spark中生成大量的記錄
如何在spark中生成多個字段的大(百萬)no記錄。我不從文件讀取數據,但數據將是隨機生成的數據。從我想要的數據創建RDD。如何在spark中生成大量的記錄
你可以參考火花提供的Random data generation。
RandomRDDs
提供工廠方法來生成隨機雙RDD或矢量RDD。
import org.apache.spark.SparkContext
import org.apache.spark.mllib.random.RandomRDDs._
val sc: SparkContext = ...
// Generate a random double RDD that contains 1 million i.i.d. values drawn from the
// standard normal distribution `N(0, 1)`, evenly distributed in 10 partitions.
val u = normalRDD(sc, 1000000L, 10)
// Apply a transform to get a random double RDD following `N(1, 4)`.
val v = u.map(x => 1.0 + 2.0 * x)
歡迎來到Stack Overflow。這是一個獲得編程問題幫助的地方。請閱讀http://stackoverflow.com/help/how-to-ask – Mikkel