2016-12-14 16 views
1

如何在spark中生成多個字段的大(百萬)no記錄。我不從文件讀取數據,但數據將是隨機生成的數據。從我想要的數據創建RDD如何在spark中生成大量的記錄

+0

歡迎來到Stack Overflow。這是一個獲得編程問題幫助的地方。請閱讀http://stackoverflow.com/help/how-to-ask – Mikkel

回答

1

你可以參考火花提供的Random data generation

RandomRDDs提供工廠方法來生成隨機雙RDD或矢量RDD。

import org.apache.spark.SparkContext 
import org.apache.spark.mllib.random.RandomRDDs._ 


val sc: SparkContext = ... 

// Generate a random double RDD that contains 1 million i.i.d. values drawn from the 
// standard normal distribution `N(0, 1)`, evenly distributed in 10 partitions. 
val u = normalRDD(sc, 1000000L, 10) 
// Apply a transform to get a random double RDD following `N(1, 4)`. 
val v = u.map(x => 1.0 + 2.0 * x)