2

我正在使用Apche Spark Mllib Logistic迴歸和線性迴歸算法。我正在使用文檔中給出的代碼片段。現在問題在最新版本Spark 1.5中使用LogisticRegressionWithSGD和LinearRegression時引發。我用於調整Apache Spark MLlib算法

參數值LogisticRegressionwithSGD

步長= 0.01
節數迭代= 1000
minBatchFraction = 0.001

混淆矩陣與此值是

27821 0   
2287 0 

並與LogisticRegressionWithLBFGS相同的數據,混淆矩陣是

27541 280 
1249 1038 

我完全無能與結果LogisticRegressionWithSGD。你能否告訴我爲什麼我沒有得到正確的結果LogisticRegressionWithSGD

回答

0

對於LogisticRegressionWithSGD,您需要更改參數,以便您可以獲得更好的準確性。 參數值似乎不適合您的數據。嘗試

stepSize = 1.0 
    numIterations = 1000 
    miniBatchFraction = 1.0 

此外,對於優化LogisticRegressionWithLBFGS結果,似乎是你試圖預測你有很多誤報的第二類。由於結果可能在很大程度上取決於您的數據,請問自己究竟數據是平衡還是有偏差?數量和質量是否足以學習模式?屬性選擇是否充分,規範?