我知道這是一個非常經典的問題,可以在這個論壇中多次回答,但是我找不到任何明確的答案,從頭開始清楚地解釋這個問題。構建一個隨機森林迴歸器,從頭開始進行交叉驗證
首先,我的數據集名爲my_data有4個變量,如 my_data =變量1,變量2,variable3 imgine,target_variable
那麼,讓我們來我的問題。我會解釋我的所有步驟,並要求你對我一直停留在那裏幫助:
# STEP1 : split my_data into [predictors] and [targets]
predictors = my_data[[
'variable1',
'variable2',
'variable3'
]]
targets = my_data.target_variable
# STEP2 : import the required libraries
from sklearn import cross_validation
from sklearn.ensemble import RandomForestRegressor
#STEP3 : define a simple Random Forest model attirbutes
model = RandomForestClassifier(n_estimators=100)
#STEP4 : Simple K-Fold cross validation. 3 folds.
cv = cross_validation.KFold(len(my_data), n_folds=3, random_state=30)
# STEP 5
在這一步,我想基於訓練數據集,以適應我的模型,然後 使用的測試模型數據集並預測測試目標。我也想計算所需的統計數據,如MSE,R2等,以瞭解我的模型的性能。
如果有人幫助我提供Step5的一些基本代碼行,我將不勝感激。
感謝&問候,
Cagdas