我使用mllib創建了一個使用Apache Spark的ML管道。 評估結果是一個DataFrame,其中有一列「probability」,它是概率的mllib向量(類似於scikit-learn中的predict_proba)。mllib矢量的最大值?
val rfPredictions = rfModels.bestModel.transform(testing)
val precision = evaluator.evaluate(rfPredictions)
我想這樣的事情沒有成功:
rfPredictions.select("probability").map{c => c.getAs[Vector](1).max}
<console>:166: error: value max is not a member of
org.apache.spark.mllib.linalg.Vector
我想這個概率最大的新列。有任何想法嗎?
是的,我認爲作品。作爲結果,我得到了一個RDD [Double],所以我無法將其添加爲DataFrame中的列。我怎樣才能做到這一點?謝謝! – marlanbar