0
我有一個稀疏的csc_matrix,我需要在RDD中加載。然而,RDD 不支持像csc_matrix直接負載:如何在pyspark中加載csc_matrix rdd
sc.parallelize(my_csc_matrix)
有沒有我們可以csc_matrix轉換爲RDD友好稀疏向量的方法嗎?
我有一個稀疏的csc_matrix,我需要在RDD中加載。然而,RDD 不支持像csc_matrix直接負載:如何在pyspark中加載csc_matrix rdd
sc.parallelize(my_csc_matrix)
有沒有我們可以csc_matrix轉換爲RDD友好稀疏向量的方法嗎?
你可以用它加載到RDD:
rdd = sc.parallelize(my_csc_matrix.toarray())
但通過加載這樣一來,你又您csc_matrix轉換成密集排列,然後加載。但無論如何,如果你想加載,你可以使用上面的代碼加載。