3
我有一列短句子和一個分類變量列的spark數據框。我想對分類變量上的句子one-hot-encoding
執行tf-idf
,然後將其輸出到驅動程序中的稀疏矩陣(一旦它的尺寸更小)(對於scikit-learn模型)。pyspark:稀疏向量到scipy稀疏矩陣
什麼是以稀疏形式從火花中獲取數據的最佳方式?似乎在稀疏向量上只有一個toArray()
方法,它輸出numpy
數組。但是,文檔確實說scipy稀疏數組can be used in the place of spark sparse arrays.
請記住,tf_idf值實際上是一列稀疏數組。理想情況下,將所有這些特徵集成到一個大型稀疏矩陣中將會很好。