熱門項目建議 - 時間敏感數據 - 數據挖掘

我是數據挖掘領域的新手。我正在研究非常有趣的Data Minign問題。數據說明如下：熱門項目建議 - 時間敏感數據 - 數據挖掘

數據對時間敏感。項目屬性取決於時間因素以及其類別標籤。我將每週數據分組爲訓練或測試記錄的一個實例。每週，某些項目屬性可能會隨着其流行程度（即類別標籤）而變化。

一些示例數據如下：

IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌tress,NumberOfNominations,NumberOfAwards,..,Label 
------------------------------------------------- 
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0 
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0 
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1 
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0 
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1

我的研究顧問建議用樸素貝葉斯算法，該算法可以適應是隨時間變化等動態數據。

我正在使用2000-2004年的數據作爲培訓2005年的測試。如果我在我的項目數據集中包含Week-Year屬性，那麼它將在樸素貝葉斯中導致0概率。按照時間順序組織數據後，可以從數據集中省略此屬性是否可以？

此外，如何適應我的模型，因爲我讀新的測試用例？因爲新的測試用例可能會導致Class標籤變化？

來源

2012-11-27 Basmah

此問題可能更適合http://stats.stackexchange.com/或http://cstheory.stackexchange.com/ –

你能提供一些更多的洞察你的方法嗎？例如，你使用R，SPSS，Python，SQL Server 2008R2還是RapidMiner 5.2？如果你可以包含一小部分（3-4行）的數據，這將有助於人們弄清楚如何解決這個問題。

爲了確定數據中的常見分離點，一種直接瞭解您所看到的方法是做隨機森林/決策樹和K均值聚類。您是否快速瀏覽了數據的直方圖，平均值和異常值？

來源

2012-11-27 13:30:01

0_1,60000161,2000,1,9-00,0,0,0， 0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0， 0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0,0,0
0_1,60000161,2000,11,19- 00,0,0,0,0,0,0,1 – Basmah

數據採用以下格式： – Basmah

IsBestPicture，MovieID，YearOfRelease，WeekYear，IsBestDirector，IsBestActor，IsBestActress，NumberOfNonations，NumberOfAwards，..，標籤 – Basmah

熱門項目建議 - 時間敏感數據 - 數據挖掘

回答

相關問題