我正在使用SparkR,我需要知道如何預測它們的新值和準確性。預測R/SparkR中的新值和精度
這是輸入,sample of data.csv
Classes ‘data.table’ and 'data.frame': 100 obs. of 8 variables:
$ LINESET : chr "DG1000420" "DG1000420" "DG1000420" "DG1000420" ...
$ TIMEINTERVAL: int 1383378600 1383394800 1383556800 1383679200 1383695400 1383718800 1383857400 1383873600 1383996000 1384269600 ...
$ SmsIn : num 77.4 76.6 99.2 63.7 10.7 ...
$ SmsOut : num 47.74 48.56 26.08 62.39 9.43 ...
$ CallIn : num 19.602 31.509 38.003 23.206 0.707 ...
$ CallOut : num 22.93 34.97 71.64 37.23 1.61 ...
$ Internet : num 435 502 363 465 295 ...
$ ValueAmp : num 39.8 32.9 81.4 94.3 54.2 ...
我的模型是
glm(ValueAmp~SmsIn+SmsOut+CallIn+CallOut+Internet+TIMEINTERVAL,data=Consumi,family="gaussian")
我想知道哪些是ValueAmp和新的價值觀他們的準確性。
我試圖做這樣的事情,正如databricks所說,但不是我所尋找的,我認爲,對於錯誤,我得到的值類似-30/+40 不是很準確嗎?
training<-createDataFrame(sqlContext,Consumi)
model <- glm(ValueAmp ~SmsIn+SmsOut+CallIn+CallOut+Internet,
family = "gaussian", data =training)
summary(model)
preds<- predict(model,training)
errors <- select(
preds, preds$label, preds$prediction, preds$LINESET,
alias(preds$label - preds$prediction, "error"))
那麼R或SparkR(最好是)有一種方法來估計具有高精度的新值嗎?
清除一如既往地感謝。 – DanieleO