2
我有一個2d numpy數組。如何從矩陣中的每一行都是rdd中的條目創建一個pyspark rdd?將numpy矩陣轉換爲pyspark rdd
使得:
rddData.take(1)[0] == list(aaData[0])
其中aaData
是numpy的2D陣列(矩陣)和rddData
是從aaData
創建的RDD?
我有一個2d numpy數組。如何從矩陣中的每一行都是rdd中的條目創建一個pyspark rdd?將numpy矩陣轉換爲pyspark rdd
使得:
rddData.take(1)[0] == list(aaData[0])
其中aaData
是numpy的2D陣列(矩陣)和rddData
是從aaData
創建的RDD?
只是parallelize
它:
mat = np.arange(100).reshape(10, -1)
rdd = sc.parallelize(mat)
np.all(rdd.first() == mat[0])
## True