2015-11-18 19 views
0

我正在測試合成生成的數據的LogisticRegression性能。我輸入的權重爲帶縮放係數的Spark返回(LogisticRegression)模型

w = [2, 3, 4] 

沒有截距和三個特徵。上1000合成產生的數據點訓練假設對於每個隨機正態分佈之後,火花LogisticRegression模型我獲得具有權重

[6.005520656096823,9.35980263762698,12.203400879214152] 

我可以看到,每個權重是由因子縮放接近「3」 w.r.t.原始值。我無法猜測背後的原因。該代碼很簡單,因爲

/* 
* Logistic Regression model 
*/ 
val lr = new LogisticRegression() 
    .setMaxIter(50) 
    .setRegParam(0.001) 
    .setElasticNetParam(0.95) 
    .setFitIntercept(false) 

val lrModel = lr.fit(trainingData) 


println(s"${lrModel.weights}") 

我非常感謝,如果有人能夠說明這裏有什麼可疑的話。

與親切的問候, 尼基爾

回答

0

我想通了這個問題:我是完美的可分離的受害者,因爲我的採樣器不能正常工作,並將所得數據完全確定性。結果,Logistic迴歸過度配置了訓練數據。