2017-04-08 39 views
0

當我在閱讀Pyspark here的ML包時,似乎KMeanModel沒有辦法計算解釋的方差以繪製肘形曲線,從而確定最佳數量的聚類。Pyspark ML KMean是否有辦法獲得解釋的差異?

但是在this示例中,用戶似乎具有computeCost()函數。該功能從哪裏來?我的程序沒有成功。

我正在使用Spark 1.6。提前致謝!

回答

2

我被困在關於computcost pyspark中的相同問題。

在應用kmeans之後,您可以使用mahalanobis距離或WSSE來代替使用computecost。

要計算你需要編寫的代碼和距離,並獲得 各種結果可以繪製圖表看拐點集羣的 最佳數目。

Anomaly Detection Using PySpark這個用例幫我看看。

+0

感謝您的信息,它似乎computecost可用> 2.0?我繼續並實施了我自己的。 – Calpis