2015-06-02 97 views
2

Apache Spark支持稀疏數據。火花如何處理缺失值?

例如,我們可以使用MLUtils.loadLibSVMFile(...)將數據加載到RDD中。

我想知道spark如何處理那些missing values

+0

我的mllib-fu很弱,所以我將這留作評論,但是如果我回想起來,他們會創建一個列出的值的字典,並且不會存儲空數據。這種方式可以基於該信息推斷任何事物。 –

回答

1

Spark創建標記點的RDD,每個標記點都有一個標籤和一個特徵向量。請注意,這是一個支持稀疏元素的Spark向量(目前,稀疏向量由非索引數組表示,而且每個非空值使用第二個雙精度數組數組)。

+1

謝謝。我想RDD的工作就是代表數據。如果我們將它用於數據挖掘,那麼培訓例程的工作就是處理這些缺失值。 – max