我使用矩陣分解作爲基於用戶點擊行爲記錄的推薦系統算法。我嘗試2點矩陣因式分解方法:我的方法檢測矩陣分解中的過擬合是否正確?
第一種是基本SVD,其預測爲用戶因子矢量的只是產品ù和項目因子我:R = ü * 我
我使用的第二個是帶偏差分量的SVD。
R = ü * 我 + b_u + b_i
其中b_u和b_i表示用戶和項目的偏好傾向。
我使用的一個模型的性能非常低,另一個是合理的。我真的不明白爲什麼後者表現更差,我懷疑它是否過度配合。
我使用搜索過濾方法來檢測過度擬合,發現學習曲線是一個好方法。但是,x軸是訓練集的大小,y軸是精度。這讓我很困惑。我怎樣才能改變訓練集的大小?從數據集中挑出一些記錄?
另一個問題是,我試圖繪製迭代損失曲線(損失是)。它似乎曲線是正常的:
但我不知道,因爲我用的指標是準確率和召回這種方法是否正確。我應該繪製迭代精度曲線嗎?或者這個已經告訴我的模型是正確的?
任何人都可以告訴我我是否正朝着正確的方向前進嗎?非常感謝。 :)