我參加了數據挖掘領域的一門研究生課程,並且我已經完成了一個代碼分配數據挖掘預處理器的任務。我有選擇編程語言和數據集的自由。我想知道是否有人可以建議使用一個好的數據集。我一直在經歷UCI Repository,我發現了更多這樣的資源。但作爲初學者,我不確定哪個數據集會是一個不錯的選擇。預處理器應該處理下列材料:用於預處理的好數據集
- 數據清理
- 缺失值
- 錯誤
- 離羣
- Nomralization
- 重複數據刪除
- 數據縮減
-
個
- 抽樣技術
- 降維
什麼樣的選擇數據,在設置我應該考慮的屬性?你會建議的任何具體數據集?
我想知道如果我能找到一個適用於所有人的單一數據集,但無論如何這是一個長鏡頭。非常感謝這些建議,將會通過它們。 – pcx