apache-spark-mllib

    1熱度

    1回答

    python-wise中實現predict_proba(X)等價的Scikit-Learn我更喜歡.predict_proba(X)而不是.decision_function(X),因爲它更容易解釋結果。就我所見,後者的功能已經在Spark中實現了(好吧,在版本0.9.2中,例如我必須自己計算點積,否則我得到0或1),但前者尚未實現(還!)。我該怎麼做\如何在Spark中實現那個呢?這裏需要的輸入

    2熱度

    1回答

    使用org.apache.spark.mllib.util.MLUtils包中的以下方法,將LIBSVM格式的二進制標記數據加載到RDD [LabeledPoint]中,具有自動確定的功能數量和分區的默認數量。 def loadLibSVMFile(sc: SparkContext, path: String): RDD[LabeledPoint] 我的問題是用多類標籤加載數據? 在多類標籤數

    1熱度

    1回答

    我想在阿帕奇星火使用areaUnderROC從MLlib。我目前正在運行Spark 1.1.0,此功能在pyspark中不可用,但在scala中可用。 是否有一個功能跟蹤器跟蹤將Scala apis移植到Python apis的進度? 我試圖在官方jira搜索,但我找不到任何相應的票號。

    0熱度

    1回答

    我與Scala(2.10.4版本)和Spark一起工作 - 我已轉移到Spark 1.0.1。版本,並注意到我的一個腳本現在無法正常工作。它以如下方式使用MLlib庫中的k-means方法。 假設我有一個名爲clusters一個KMeansModel對象: scala> clusters.toString res8: String = [email protected] 這裏是我的問題的方法

    2熱度

    2回答

    我是機器學習的新手。我正在嘗試使用MLlib的決策樹。 有人可以幫助我如何爲多類別分類準備mllib決策樹的輸入文件。 我的CSV文件的擁有 標籤的格式,文字 label_1, text of label 1 label_2, text of label 2 label_3, text of label 3 通過mllib輸入所需的格式是LIBSVM,或labeledpoint。 file

    1熱度

    1回答

    我想用Apache Spark的MLlib建立一個分類系統。我有入圍的樸素貝葉斯算法來做到這一點,並將使用Java 8來支持Lambda表達式。在lambda表達式方面,我是一個新手,因此在Java中實現它們時遇到困難。 我指的是下面的鏈接,其具有用Scala編寫的樣本,但我有一個很難將其轉換成Java 8 http://chimpler.wordpress.com/2014/06/11/clas