2017-04-15 81 views
0

我有一個稀疏的csc_matrix,我需要在RDD中加載。然而,RDD 支持像csc_matrix直接負載:如何在pyspark中加載csc_matrix rdd

sc.parallelize(my_csc_matrix) 

有沒有我們可以csc_matrix轉換爲RDD友好稀疏向量的方法嗎?

回答

0

你可以用它加載到RDD:

rdd = sc.parallelize(my_csc_matrix.toarray()) 

但通過加載這樣一來,你又您csc_matrix轉換成密集排列,然後加載。但無論如何,如果你想加載,你可以使用上面的代碼加載。