0

我是數據挖掘領域的新手。我正在研究非常有趣的Data Minign問題。數據說明如下:熱門項目建議 - 時間敏感數據 - 數據挖掘

數據對時間敏感。項目屬性取決於時間因素以及其類別標籤。我將每週數據分組爲訓練或測試記錄的一個實例。每週,某些項目屬性可能會隨着其流行程度(即類別標籤)而變化。

一些示例數據如下:

IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌​tress,NumberOfNominations,NumberOfAwards,..,Label 
------------------------------------------------- 
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0 
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0 
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1 
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0 
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1 

我的研究顧問建議用樸素貝葉斯算法,該算法可以適應是隨時間變化等動態數據。

我正在使用2000-2004年的數據作爲培訓2005年的測試。如果我在我的項目數據集中包含Week-Year屬性,那麼它將在樸素貝葉斯中導致0概率。按照時間順序組織數據後,可以從數據集中省略此屬性是否可以?

此外,如何適應我的模型,因爲我讀新的測試用例?因爲新的測試用例可能會導致Class標籤變化?

+0

此問題可能更適合http://stats.stackexchange.com/或http://cstheory.stackexchange.com/ –

回答

0

你能提供一些更多的洞察你的方法嗎?例如,你使用R,SPSS,Python,SQL Server 2008R2還是RapidMiner 5.2?如果你可以包含一小部分(3-4行)的數據,這將有助於人們弄清楚如何解決這個問題。

爲了確定數據中的常見分離點,一種直接瞭解您所看到的方法是做隨機森林/決策樹和K均值聚類。您是否快速瀏覽了數據的直方圖,平均值和異常值?

+0

0_1,60000161,2000,1,9-00,0,0,0, 0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0, 0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0,0,0
0_1,60000161,2000,11,19- 00,0,0,0,0,0,0,1 – Basmah

+0

數據採用以下格式: – Basmah

+0

IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestActress,NumberOfNonations,NumberOfAwards,..,標籤 – Basmah