apache-spark-mllib

1熱度

1回答

python-wise中實現predict_proba（X）等價的Scikit-Learn我更喜歡.predict_proba（X）而不是.decision_function（X），因爲它更容易解釋結果。就我所見，後者的功能已經在Spark中實現了（好吧，在版本0.9.2中，例如我必須自己計算點積，否則我得到0或1），但前者尚未實現（還！）。我該怎麼做\如何在Spark中實現那個呢？這裏需要的輸入

2熱度

1回答

如何將具有多個類的LibSVM文件轉換爲RDD [labelPoint]

使用org.apache.spark.mllib.util.MLUtils包中的以下方法，將LIBSVM格式的二進制標記數據加載到RDD [LabeledPoint]中，具有自動確定的功能數量和分區的默認數量。 def loadLibSVMFile(sc: SparkContext, path: String): RDD[LabeledPoint] 我的問題是用多類標籤加載數據？在多類標籤數

1熱度

1回答

MLlib和pyspark功能

我想在阿帕奇星火使用areaUnderROC從MLlib。我目前正在運行Spark 1.1.0，此功能在pyspark中不可用，但在scala中可用。是否有一個功能跟蹤器跟蹤將Scala apis移植到Python apis的進度？我試圖在官方jira搜索，但我找不到任何相應的票號。

0熱度

1回答

爲什麼從Spark 1.0.1開始出現KMeansModel.predict錯誤？

我與Scala（2.10.4版本）和Spark一起工作 - 我已轉移到Spark 1.0.1。版本，並注意到我的一個腳本現在無法正常工作。它以如下方式使用MLlib庫中的k-means方法。假設我有一個名爲clusters一個KMeansModel對象： scala> clusters.toString res8: String = [email protected] 這裏是我的問題的方法

2熱度

2回答

mllib的輸入文件格式

我是機器學習的新手。我正在嘗試使用MLlib的決策樹。有人可以幫助我如何爲多類別分類準備mllib決策樹的輸入文件。我的CSV文件的擁有標籤的格式，文字 label_1, text of label 1 label_2, text of label 2 label_3, text of label 3 通過mllib輸入所需的格式是LIBSVM，或labeledpoint。 file

1熱度

1回答

Java中Spark MLlib的分類

我想用Apache Spark的MLlib建立一個分類系統。我有入圍的樸素貝葉斯算法來做到這一點，並將使用Java 8來支持Lambda表達式。在lambda表達式方面，我是一個新手，因此在Java中實現它們時遇到困難。我指的是下面的鏈接，其具有用Scala編寫的樣本，但我有一個很難將其轉換成Java 8 http://chimpler.wordpress.com/2014/06/11/clas