h2o.glm不用於聯合線性迴歸

我一直在與H2O.ai（3.10.3.6版）與R.h2o.glm不用於聯合線性迴歸

我奮力用水複製從GLM結果匹配R中GLM。 GLM。我期望得到完全相同的結果（在這種情況下，以均方誤差來評估），但我發現h2o的精度必須更差。由於我的模型是高斯的，我認爲這兩種情況都是普通最小二乘（或最大似然）迴歸。

這是我的例子：

train <- model.matrix(~., training_df) 
test <- model.matrix(~., testing_df) 

model1 <- glm(response ~., data=data.frame(train)) 
yhat1 <- predict(model1 , newdata=data.frame(test)) 
mse1 <- mean((testing_df$response - yhat1)^2) #5299.128 

h2o_training <- as.h2o(train)[-1,] 
h2o_testing <- as.h2o(test)[-1,] 

model2 <- h2o.glm(x = 2:dim(h2o_training)[2], y = 1, 
        training_frame = h2o_training, 
        family = "gaussian", alpha = 0) 

yhat2 <- h2o.predict(model2, h2o_testing) 
yhat2 <- as.numeric(as.data.frame(yhat2)[,1]) 
mse2 <- mean((testing_df$response - yhat2)^2) #8791.334

的MSE是爲H2O型號高出60％。我的假設glm≈h2o.glm錯了嗎？我將着眼於提供一個示例數據集asap（訓練數據集是保密的，350000行x 350列）。

一個額外的問題：由於某些原因，as.h2o增加了一個充滿NAs的額外行，以便h2o_training和h2o_testing有一個額外的行。在構建模型之前刪除它（如我在這裏所做的：as.h2o（train）[ - 1，]）不會影響迴歸性能。沒有傳遞給glm或h2o.glm的NA值;即訓練矩陣不具有NA值。

來源

2017-04-10 fifthace

從你自己的意見，而不知道h2o，似乎h2o處理NA的方式與glm完全不同。你應該在發佈問題 – Akbar

@Akabar之前閱讀兩個幫助文件，訓練矩陣中沒有NAs，所以這不是問題。我已閱讀文檔和h2o.glm聲明做「通過迭代重新最小二乘法進行最大似然估計」，這應該給高斯模型提供與ols相同的參數估計值。 – fifthace

如果您在h2o.glm中仔細設置參數，可以複製glm，但默認設置肯定會做不同的事情。 – jmuhlenkamp

爲了使H2O的GLM與R的GLM匹配，需要設置一些參數，因爲默認情況下它們的功能不同。下面是你需要設置以獲得相同的結果是什麼一個例子：

library(h2o) 
h2o.init(nthreads = -1) 

path <- system.file("extdata", "prostate.csv", package = "h2o") 
train <- h2o.importFile(filepath) 

# Run GLM of VOL ~ CAPSULE + AGE + RACE + PSA + GLEASON 
x <- setdiff(colnames(train), c("ID", "DPROS", "DCAPS", "VOL")) 

# Train H2O GLM (designed to match R) 
h2o_glmfit <- h2o.glm(y = "VOL", 
         x = x, 
         training_frame = train, 
         family = "gaussian", 
         lambda = 0, 
         remove_collinear_columns = TRUE, 
         compute_p_values = TRUE, 
         solver = "IRLSM") 

# Train an R GLM 
r_glmfit <- glm(VOL ~ CAPSULE + AGE + RACE + PSA + GLEASON, 
       data = as.data.frame(train))

這裏是coefs（它們匹配）：

> h2o.coef(h2o_glmfit) 
    Intercept  CAPSULE   AGE 
-4.35605671 -4.29056573 0.29789896 
     RACE   PSA  GLEASON 
4.35567076 0.04945783 -0.51260829 

> coef(r_glmfit) 
(Intercept)  CAPSULE   AGE 
-4.35605671 -4.29056573 0.29789896 
     RACE   PSA  GLEASON 
4.35567076 0.04945783 -0.51260829

我添加了一個JIRA ticket這一信息添加到文檔。

來源

2017-04-10 18:21:59

謝謝艾琳。這給了我一個與lm相同的結果。現在我將努力獲得與glmnet相同的結果。 – fifthace

@fifthace如果您使用glmnet默認值，請在H2O中設置「alpha = 1.0」。請注意，glmnet可能會找到與H2O不同的'lambda'，因此您可以先運行它，取最好的'lambda'值，然後在'h2o.glm（）'中使用它。 –

我的假設glm≈h2o.glm錯了嗎？

h2o.glm的算法不同於R的glm。

h2o.glm實際上與glmnet R包非常相似，因爲它們都支持Elastic Net正則化（並且glmnet的兩位作者Hastie和Tibshirani是H2O.ai的顧問）。

當建立H2O的glm時，我們使用glmnet作爲測量棒，遠遠超過R的glm。儘管如此，你不應該期待結果具有完全相同的係數，但我也不希望這樣的MSE急劇惡化。

來源

2017-04-10 15:22:33 TomKraljevic

@ Tom K，當使用10倍交叉驗證來最小化MSE時，glmnet給出了幾乎與glm相同的結果。基本上，彈性網不適合我的例子，並且你的解釋不正確（在我的情況下）。 – fifthace

h2o.glm不用於聯合線性迴歸

回答

相關問題