適合此數據集的數據挖掘技術

我正在開發一個數據挖掘項目，並希望挖掘此數據集Higher Education Enrolments以獲取有趣的模式或知識。我的問題是確定哪種技術最適合數據集。適合此數據集的數據挖掘技術

我目前正在使用RapidMiner 5.0處理數據集，並且從數據中刪除了兩列（E550 - 參考年，E931 - 學生EFTSL），因爲它們與分析無關。除了學生ID（整數），其餘的屬性都是標稱的，我用它作爲我的ID。我目前正在使用分類（樸素貝葉斯），但希望得到其他人的意見，希望那些在這方面有更多經驗的人。謝謝。

來源

2012-09-29 Harry

最好的技術取決於許多因素：訓練和目標屬性的類型/分佈，域，屬性的值範圍等。使用的最佳技術是數據分析和理解的結果。

在這種特殊情況下，您應該明確哪個屬性可以預測。

來源

2012-10-01 11:46:06 user1433641

除非你已經知道你在找什麼，並知道有關數據源的質量，你應該總是嘗試各種探索性分析入手：在一些第一和第二階統計的

外觀所有變量
產生每個變量的直方圖，獲取的每個
經驗分佈的概念來看看變數成對散點圖可能有依賴
嘗試，你可能會想到

這些會給你什麼樣的模式可能存在一個粗略的想法，並給出了噪音水平可能是發現其他可視化。然後根據您感興趣的模式類型，您可以開始嘗試各種無監督模式學習方法，如PCA/ICA /因子分析，聚類或監督方法，如迴歸，分類。

來源

2012-10-01 20:21:35

適合此數據集的數據挖掘技術

回答

相關問題