火花如何處理缺失值？

Apache Spark支持稀疏數據。火花如何處理缺失值？

例如，我們可以使用MLUtils.loadLibSVMFile(...)將數據加載到RDD中。

我想知道spark如何處理那些missing values。

2015-06-02 max

我的mllib-fu很弱，所以我將這留作評論，但是如果我回想起來，他們會創建一個列出的值的字典，並且不會存儲空數據。這種方式可以基於該信息推斷任何事物。 –

Spark創建標記點的RDD，每個標記點都有一個標籤和一個特徵向量。請注意，這是一個支持稀疏元素的Spark向量（目前，稀疏向量由非索引數組表示，而且每個非空值使用第二個雙精度數組數組）。

2015-06-03 00:18:53 Holden

謝謝。我想RDD的工作就是代表數據。如果我們將它用於數據挖掘，那麼培訓例程的工作就是處理這些缺失值。 – max

回答