我正在構建邏輯迴歸的ML管道。 val lr = new LogisticRegression()
lr.setMaxIter(100).setRegParam(0.001)
val pipeline = new Pipeline().setStages(Array(geoDimEncoder,clientTypeEncoder,
devTypeDimIdEncoder,pu
我試圖調整使用隱式數據的ALS矩陣分解模型的參數。爲此,我試圖使用pyspark.ml.tuning.CrossValidator運行參數網格並選擇最佳模型。我相信我的問題在評估者中,但我無法弄清楚。 我能得到這個與迴歸RMSE評估一個明確的數據模型的工作,具體如下: from pyspark import SparkConf, SparkContext
from pyspark.sql imp
我爲邏輯迴歸編寫了下面的代碼,我想使用由spark.ml提供的管道API。然而,在我嘗試打印係數和截取值後,它給了我一個錯誤。另外,我在計算混淆矩陣和其他度量如精度,召回率方面遇到了困難。 #Logistic Regression:
from pyspark.mllib.linalg import Vectors
from pyspark.ml.classification import Lo
隨着org.apache.spark.mllib學習算法,我們用來設置管道沒有訓練算法 var stages: Array[org.apache.spark.ml.PipelineStage] = index_transformers :+ assembler
val pipeline = new Pipeline().setStages(stages)
然後經過我們二手LabeledPoi
考慮這裏給出的代碼之前並行化序列, https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegression
val training = sparkContext.parallelize(Seq(
LabeledPoint(1.0, Vec