2012-09-29 41 views
0

我正在開發一個數據挖掘項目,並希望挖掘此數據集Higher Education Enrolments以獲取有趣的模式或知識。我的問題是確定哪種技術最適合數據集。適合此數據集的數據挖掘技術

我目前正在使用RapidMiner 5.0處理數據集,並且從數據中刪除了兩列(E550 - 參考年,E931 - 學生EFTSL),因爲它們與分析無關。除了學生ID(整數),其餘的屬性都是標稱的,我用它作爲我的ID。我目前正在使用分類(樸素貝葉斯),但希望得到其他人的意見,希望那些在這方面有更多經驗的人。謝謝。

回答

0

最好的技術取決於許多因素:訓練和目標屬性的類型/分佈,域,屬性的值範圍等。使用的最佳技術是數據分析和理解的結果。

在這種特殊情況下,您應該明確哪個屬性可以預測。

0

除非你已經知道你在找什麼,並知道有關數據源的質量,你應該總是嘗試各種探索性分析入手:在一些第一和第二階統計的

  • 外觀所有 變量
  • 產生每個變量的直方圖,獲取的每個
  • 經驗 分佈的概念來看看變數成對散點圖可能有 依賴
  • 嘗試,你可能會想到

這些會給你什麼樣的模式可能存在一個粗略的想法,並給出了噪音水平可能是發現其他可視化。然後根據您感興趣的模式類型,您可以開始嘗試各種無監督模式學習方法,如PCA/ICA /因子分析,聚類或監督方法,如迴歸,分類。