帶縮放係數的Spark返回（LogisticRegression）模型

我正在測試合成生成的數據的LogisticRegression性能。我輸入的權重爲帶縮放係數的Spark返回（LogisticRegression）模型

w = [2, 3, 4]

沒有截距和三個特徵。上1000合成產生的數據點訓練假設對於每個隨機正態分佈之後，火花LogisticRegression模型我獲得具有權重

[6.005520656096823,9.35980263762698,12.203400879214152]

我可以看到，每個權重是由因子縮放接近「3」 w.r.t.原始值。我無法猜測背後的原因。該代碼很簡單，因爲

/* 
* Logistic Regression model 
*/ 
val lr = new LogisticRegression() 
    .setMaxIter(50) 
    .setRegParam(0.001) 
    .setElasticNetParam(0.95) 
    .setFitIntercept(false) 

val lrModel = lr.fit(trainingData) 


println(s"${lrModel.weights}")

我非常感謝，如果有人能夠說明這裏有什麼可疑的話。

與親切的問候，尼基爾

來源

2015-11-18 Nikhil J Joshi

我想通了這個問題：我是完美的可分離的受害者，因爲我的採樣器不能正常工作，並將所得數據完全確定性。結果，Logistic迴歸過度配置了訓練數據。

來源

2015-11-18 02:47:10

帶縮放係數的Spark返回（LogisticRegression）模型

回答

相關問題