2
Apache Spark支持稀疏數據。火花如何處理缺失值?
例如,我們可以使用MLUtils.loadLibSVMFile(...)
將數據加載到RDD
中。
我想知道spark
如何處理那些missing values
。
Apache Spark支持稀疏數據。火花如何處理缺失值?
例如,我們可以使用MLUtils.loadLibSVMFile(...)
將數據加載到RDD
中。
我想知道spark
如何處理那些missing values
。
Spark創建標記點的RDD,每個標記點都有一個標籤和一個特徵向量。請注意,這是一個支持稀疏元素的Spark向量(目前,稀疏向量由非索引數組表示,而且每個非空值使用第二個雙精度數組數組)。
謝謝。我想RDD的工作就是代表數據。如果我們將它用於數據挖掘,那麼培訓例程的工作就是處理這些缺失值。 – max
我的mllib-fu很弱,所以我將這留作評論,但是如果我回想起來,他們會創建一個列出的值的字典,並且不會存儲空數據。這種方式可以基於該信息推斷任何事物。 –