2011-10-31 91 views
3

我參加了數據挖掘領域的一門研究生課程,並且我已經完成了一個代碼分配數據挖掘預處理器的任務。我有選擇編程語言和數據集的自由。我想知道是否有人可以建議使用一個好的數據集。我一直在經歷UCI Repository,我發現了更多這樣的資源。但作爲初學者,我不確定哪個數據集會是一個不錯的選擇。預處理器應該處理下列材料:用於預處理的好數據集

  • 數據清理
    • 缺失值
    • 錯誤
    • 離羣
    • Nomralization
    • 重複數據刪除
  • 數據縮減
    • 抽樣技術
    • 降維

什麼樣的選擇數據,在設置我應該考慮的屬性?你會建議的任何具體數據集?

回答

1

你回答了你自己的問題。在UCI存儲庫已對數據集進行分類時,選擇您提及的屬性的數據集列表。你可以選擇任何人開始玩它。因此,首先,如果我是你,我會繼續進行步驟明智的操作,感受這些效果如何以及它們對分類器性能的影響,並選擇一些流行數據集,因爲它們被用作基準數據集在大多數研究論文中。你列出的大部分是獨立的機器學習問題,正在進行大量的研究。

我會像這樣開始:
遺漏值:鳶尾,投票,心臟病
的重複:921810歌曲集(不形成UCI我認爲)
規範化:任何連續值數據集具有不同範圍爲特徵
採樣技術:皮馬
降維:瑞士捲

此外,查找數據集的另一個最佳方法是引用一些相應的出版物。例如,爲了降低維度,您可以查看PCA,ISOMAP等紙張的樣品,參見SMOTE紙等樣品,並查看它們用於實驗的數據類型,並據此進行操作。

+0

我想知道如果我能找到一個適用於所有人的單一數據集,但無論如何這是一個長鏡頭。非常感謝這些建議,將會通過它們。 – pcx