2013-01-10 158 views
1

我試圖爲具體問題選擇最佳預測/分類模型。我要求遵循的方法是:使用預測模型和TunePareto包測試和訓練數據集

  • 將數據分解爲測試和培訓。
  • 運行具有訓練數據的具體模型,並使用10倍交叉驗證對其進行評估,以獲得該模型的最佳參數(評估給定的誤差)。
  • 重複其他模型,直到我對每個選定的分類模型都有最佳配置。
  • 最後,我必須重新運行每個模型及其最佳參數集,其中要訓練的數據是「訓練數據」,並且作爲結果給出的誤差可能來自「testdata」(請注意,測試數據沒有直到現在才被使用,以避免在最後的比較中出現分歧)。

我一直在使用TunePareto軟件包,它具有一個很好且易於運行的功能,可以在數據框上運行一些分類模型(如Naive Bye或kNN)以及10倍的CV。問題出現在我提到的最後一項任務中:我不知道如何使用特定的數據幀作爲TunePareto的測試。任何人都可以幫助我嗎?

我搜索了一些例子,但什麼也沒找到。如果TunePareto不允許這樣做,我會很樂意聽取替代方案。

謝謝!

+0

這是一個編碼網站。請顯示你的代碼。或者發佈(使用dput)一個可以工作的R對象。 –

回答

0

From the documentation,功能tuneParetoClassifier似乎有一個參數testDataName您可以在其中提供您的獨立測試數據集。這裏是功能的定義:

tuneParetoClassifier(name, classifier, classifierParamNames = NULL, predefinedClassifierParams = NULL, predictor = NULL, predictorParamNames = NULL, predefinedPredictorParams = NULL, useFormula = FALSE, formulaName = "formula", trainDataName = "x", trainLabelName = "y", testDataName = "newdata", modelName = "object", requiredPackages = NULL) 
相關問題