1
我在我的hdfs中有一些Mahout載體的順序文件格式。是否有可能以某種方式使用相同的矢量在Spark中訓練KMeans模型?我可以將現有的Mahout矢量轉換爲Spark矢量(mllib),但我想避免這種情況。火車星火K-means與Mahout載體
我在我的hdfs中有一些Mahout載體的順序文件格式。是否有可能以某種方式使用相同的矢量在Spark中訓練KMeans模型?我可以將現有的Mahout矢量轉換爲Spark矢量(mllib),但我想避免這種情況。火車星火K-means與Mahout載體
Mahout矢量不直接受Spark支持。您會 - 根據您的擔憂 - 需要將它們轉換爲Spark矢量。
val sc = new SparkContext("local[2]", "MahoutTest")
val sfData = sc.sequenceFile[NullWritable, MVector](dir)
val xformedVectors = sfData.map { case (label, vect) =>
import collection.JavaConversions._
(label, Vectors.dense(vect.all.iterator.map{ e => e.get}.toArray))
}
這真的不是那麼糟糕。 DRM上的單個分佈式傳遞是快速的。當使用Spark-Mahout代碼時,也不需要序列文件。 – pferrel 2015-02-08 16:18:36