2016-03-24 144 views
2

我有一個2d numpy數組。如何從矩陣中的每一行都是rdd中的條目創建一個pyspark rdd?將numpy矩陣轉換爲pyspark rdd

使得:

rddData.take(1)[0] == list(aaData[0]) 

其中aaData是numpy的2D陣列(矩陣)和rddData是從aaData創建的RDD?

回答

2

只是parallelize它:

mat = np.arange(100).reshape(10, -1) 
rdd = sc.parallelize(mat) 

np.all(rdd.first() == mat[0]) 
## True