數據挖掘算法比較

是否有任何數據挖掘算法比較？在性能，準確性和用於生成健壯模型的所需數據量方面進行比較。似乎集合學習算法，如套袋和助推，目前被認爲是最準確的。我沒有任何具體的問題需要解決。這只是一個理論問題。數據挖掘算法比較

來源

2010-02-06 Max

您應該在網上搜索數據挖掘的調查報告。

這裏是一個：Top Ten Algorithms in Data Mining，它給出了一個排名，而不是一個並排。（儘管如此，我還沒有閱讀這篇論文）。

來源

2010-02-06 20:17:18

在穩健性和準確性方面，一般比較機器學習算法是非常困難的。但是，可以研究他們的一些利弊。我在下面幾個最知名的機器學習算法中考慮（這絕不是一個完整的事物，只是我的觀點）：

決策樹：最突出的是C4.5算法。它們具有生成易於解釋的模型的優點。但他們很容易過度配合。存在許多變體。

貝葉斯網絡有強大的統計根源。它們在通過不完整數據進行推理的域中特別有用。

人工神經網絡被廣泛使用和強大的技術。理論上他們能夠近似任意的功能。但是，它們需要調整大量參數（網絡結構，節點數量，激活函數等）。它們也有作爲黑盒工作的缺點（很難解釋模型）

支持向量機也許被認爲是最強大的技術之一。使用着名的內核技巧，理論上可以始終達到100％的可分離性。與ANN不同，他們試圖優化一個唯一可解的問題（沒有局部最小值）。但是，它們可能是計算密集型的，難以應用於大型數據集。支持向量機絕對是一個開放的研究領域。

然後有一類元集學習算法，如集合學習技術，如裝袋，提升，堆疊等......它們本身並不完整，而是用作改進和組合其他算法的方式。

最後我應該提到，沒有一種算法比另一種算法更好，決定選擇哪種算法很大程度上取決於我們所處的域，數據以及它在許多其他因素中的預處理方式。

來源

2010-02-06 22:03:21 Amro

同意域依賴。我相信「沒有免費的午餐定理」是這裏的魔力詞。 – mcdowella 2010-02-07 05:33:57

ROC curves已被證明對機器學習技術的評估有用，特別是在比較和評估不同的分類算法時。您可能會對此感興趣introduction to ROC analysis。

來源

2010-02-07 13:23:19

根據你的問題，你似乎對分類算法感興趣。首先，我想告訴你，數據挖掘不僅僅侷限於分類。還有其他數據挖掘任務，如挖掘頻繁模式，聚類等。

要回答您的問題，性能取決於算法，但也取決於數據集。對於某些數據集，某些算法可能比其他數據集具有更高的準確性。除了大多數數據挖掘書籍（C4.5等）中描述的經典分類算法之外，還有大量關於這些主題的研究論文發表。如果你想知道現在哪些算法通常表現更好，我建議閱讀研究論文。研究論文通常提供一些與以前算法的性能比較。但就像我說的，績效可能取決於你的數據。所以你可能不得不嘗試算法來找出！

來源

2011-11-16 12:26:18 Phil

數據挖掘算法比較

回答

相關問題