我是數據挖掘領域的新手。我正在研究非常有趣的Data Minign問題。數據說明如下:熱門項目建議 - 時間敏感數據 - 數據挖掘
數據對時間敏感。項目屬性取決於時間因素以及其類別標籤。我將每週數據分組爲訓練或測試記錄的一個實例。每週,某些項目屬性可能會隨着其流行程度(即類別標籤)而變化。
一些示例數據如下:
IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestActress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1
我的研究顧問建議用樸素貝葉斯算法,該算法可以適應是隨時間變化等動態數據。
我正在使用2000-2004年的數據作爲培訓2005年的測試。如果我在我的項目數據集中包含Week-Year屬性,那麼它將在樸素貝葉斯中導致0概率。按照時間順序組織數據後,可以從數據集中省略此屬性是否可以?
此外,如何適應我的模型,因爲我讀新的測試用例?因爲新的測試用例可能會導致Class標籤變化?
此問題可能更適合http://stats.stackexchange.com/或http://cstheory.stackexchange.com/ –