用於預處理的好數據集

我參加了數據挖掘領域的一門研究生課程，並且我已經完成了一個代碼分配數據挖掘預處理器的任務。我有選擇編程語言和數據集的自由。我想知道是否有人可以建議使用一個好的數據集。我一直在經歷UCI Repository，我發現了更多這樣的資源。但作爲初學者，我不確定哪個數據集會是一個不錯的選擇。預處理器應該處理下列材料：用於預處理的好數據集

數據清理
- 缺失值
- 錯誤
- 離羣
- Nomralization
- 重複數據刪除
數據縮減
- 抽樣技術
- 降維

什麼樣的選擇數據，在設置我應該考慮的屬性？你會建議的任何具體數據集？

來源

2011-10-31 pcx

你回答了你自己的問題。在UCI存儲庫已對數據集進行分類時，選擇您提及的屬性的數據集列表。你可以選擇任何人開始玩它。因此，首先，如果我是你，我會繼續進行步驟明智的操作，感受這些效果如何以及它們對分類器性能的影響，並選擇一些流行數據集，因爲它們被用作基準數據集在大多數研究論文中。你列出的大部分是獨立的機器學習問題，正在進行大量的研究。

我會像這樣開始：
遺漏值：鳶尾，投票，心臟病
的重複：921810歌曲集（不形成UCI我認爲）
規範化：任何連續值數據集具有不同範圍爲特徵
採樣技術：皮馬
降維：瑞士捲

此外，查找數據集的另一個最佳方法是引用一些相應的出版物。例如，爲了降低維度，您可以查看PCA，ISOMAP等紙張的樣品，參見SMOTE紙等樣品，並查看它們用於實驗的數據類型，並據此進行操作。

來源

2011-11-01 06:59:55 iinception

我想知道如果我能找到一個適用於所有人的單一數據集，但無論如何這是一個長鏡頭。非常感謝這些建議，將會通過它們。 – pcx

用於預處理的好數據集

回答

相關問題