是否有任何數據挖掘算法比較?在性能,準確性和用於生成健壯模型的所需數據量方面進行比較。 似乎集合學習算法,如套袋和助推,目前被認爲是最準確的。 我沒有任何具體的問題需要解決。這只是一個理論問題。數據挖掘算法比較
數據挖掘算法比較
回答
您應該在網上搜索數據挖掘的調查報告。
這裏是一個:Top Ten Algorithms in Data Mining,它給出了一個排名,而不是一個並排。 (儘管如此,我還沒有閱讀這篇論文)。
在穩健性和準確性方面,一般比較機器學習算法是非常困難的。但是,可以研究他們的一些利弊。我在下面幾個最知名的機器學習算法中考慮(這絕不是一個完整的事物,只是我的觀點):
決策樹:最突出的是C4.5算法。它們具有生成易於解釋的模型的優點。但他們很容易過度配合。存在許多變體。
貝葉斯網絡有強大的統計根源。它們在通過不完整數據進行推理的域中特別有用。
人工神經網絡被廣泛使用和強大的技術。理論上他們能夠近似任意的功能。但是,它們需要調整大量參數(網絡結構,節點數量,激活函數等)。它們也有作爲黑盒工作的缺點(很難解釋模型)
支持向量機也許被認爲是最強大的技術之一。使用着名的內核技巧,理論上可以始終達到100%的可分離性。與ANN不同,他們試圖優化一個唯一可解的問題(沒有局部最小值)。但是,它們可能是計算密集型的,難以應用於大型數據集。支持向量機絕對是一個開放的研究領域。
然後有一類元集學習算法,如集合學習技術,如裝袋,提升,堆疊等......它們本身並不完整,而是用作改進和組合其他算法的方式。
最後我應該提到,沒有一種算法比另一種算法更好,決定選擇哪種算法很大程度上取決於我們所處的域,數據以及它在許多其他因素中的預處理方式。
ROC curves已被證明對機器學習技術的評估有用,特別是在比較和評估不同的分類算法時。您可能會對此感興趣introduction to ROC analysis。
根據你的問題,你似乎對分類算法感興趣。首先,我想告訴你,數據挖掘不僅僅侷限於分類。還有其他數據挖掘任務,如挖掘頻繁模式,聚類等。
要回答您的問題,性能取決於算法,但也取決於數據集。對於某些數據集,某些算法可能比其他數據集具有更高的準確性。除了大多數數據挖掘書籍(C4.5等)中描述的經典分類算法之外,還有大量關於這些主題的研究論文發表。如果你想知道現在哪些算法通常表現更好,我建議閱讀研究論文。研究論文通常提供一些與以前算法的性能比較。但就像我說的,績效可能取決於你的數據。所以你可能不得不嘗試算法來找出!
- 1. 哪種數據挖掘算法最好?
- 2. 簡單的比特幣挖掘算法
- 3. R數據挖掘語法
- 4. 比較數據挖掘中的序數類型
- 5. HTML數據挖掘
- 6. python數據挖掘
- 7. Kissmetrics數據挖掘
- 8. 任何一種優化Apriori算法的數據挖掘算法?
- 9. DBSCAN算法和數據挖掘聚類算法
- 10. Web數據挖掘任務的編程語言比較
- 11. 在數據挖掘中映射數據的算法
- 12. 數據挖掘 - K近鄰
- 13. 休眠4數據挖掘
- 14. JSON到R數據挖掘
- 15. 數據挖掘字符串
- 16. hadoop的數據挖掘庫
- 17. 數據挖掘情況
- 18. 「相似性」數據挖掘
- 19. Google數據挖掘工具
- 20. 從數據挖掘開始
- 21. 數據挖掘教科書
- 22. 比較/聚類軌跡((x,y)點的GPS數據)和挖掘數據
- 23. 挖掘衆包數據的合法性
- 24. 的Oracle SQL導航數據挖掘文本挖掘
- 25. Apriori算法挖掘XML文檔
- 26. 關於一些數據挖掘算法的問題
- 27. 引用url地址學習數據挖掘算法C5.0
- 28. 向前看的時間分析,R(數據挖掘算法)
- 29. 建議這種情況的數據挖掘算法
- 30. 數據挖掘海量數據
同意域依賴。我相信「沒有免費的午餐定理」是這裏的魔力詞。 – mcdowella 2010-02-07 05:33:57