2012-09-25 56 views
1

MovieLens 100k數據集提供了5對用於5倍交叉驗證的訓練和測試集。但是,我瞭解到在測試集之前應使用驗證集才能獲得最佳參數值。MovieLens 100k數據集是否缺少驗證集?

我假設在原始分割中,五個「測試集」實際上是驗證集。如果這是真的,那麼就沒有可以測試模型性能的「測試集」。那麼我是否應該重新分割MovieLens數據以執行一個良好的火車驗證測試過程?

謝謝!

回答

0

您實際上有2個選項可用於movielens集合中的測試。

第一個選項: 用戶被分成5個組,並且每個組也被拆分成一個基組和一個測試組。 基地組在這裏「訓練」你的算法,並測試測試組。你有5個不同的組,所以你可以做5次學習和測試過程,並最終獲得各種組合的統計信息。

第二選項: 100k集中的每個用戶都有20個評分。在第二種情況下,你有兩組a和b。 每個用戶在a上有10個評分,在b上有10個評分。因此,你可以從集合a中學習,然後嘗試猜測和比較集合b。

當然,如果你想擁有完整的設置,你還可以設置自己的組!