2010-02-06 38 views
5

是否有任何數據挖掘算法比較?在性能,準確性和用於生成健壯模型的所需數據量方面進行比較。 似乎集合學習算法,如套袋和助推,目前被認爲是最準確的。 我沒有任何具體的問題需要解決。這只是一個理論問題。數據挖掘算法比較

回答

8

您應該在網上搜索數據挖掘的調查報告。

這裏是一個:Top Ten Algorithms in Data Mining,它給出了一個排名,而不是一個並排。 (儘管如此,我還沒有閱讀這篇論文)。

3

在穩健性和準確性方面,一般比較機器學習算法是非常困難的。但是,可以研究他們的一些利弊。我在下面幾個最知名的機器學習算法中考慮(這絕不是一個完整的事物,只是我的觀點):

決策樹:最突出的是C4.5算法。它們具有生成易於解釋的模型的優點。但他們很容易過度配合。存在許多變體。

貝葉斯網絡有強大的統計根源。它們在通過不完整數據進行推理的域中特別有用。

人工神經網絡被廣泛使用和強大的技術。理論上他們能夠近似任意的功能。但是,它們需要調整大量參數(網絡結構,節點數量,激活函數等)。它們也有作爲黑盒工作的缺點(很難解釋模型)

支持向量機也許被認爲是最強大的技術之一。使用着名的內核技巧,理論上可以始終達到100%的可分離性。與ANN不同,他們試圖優化一個唯一可解的問題(沒有局部最小值)。但是,它們可能是計算密集型的,難以應用於大型數據集。支持向量機絕對是一個開放的研究領域。

然後有一類元集學習算法,如集合學習技術,如裝袋,提升,堆疊等......它們本身並不完整,而是用作改進和組合其他算法的方式。

最後我應該提到,沒有一種算法比另一種算法更好,決定選擇哪種算法很大程度上取決於我們所處的域,數據以及它在許多其他因素中的預處理方式。

+4

同意域依賴。我相信「沒有免費的午餐定理」是這裏的魔力詞。 – mcdowella 2010-02-07 05:33:57

0

根據你的問題,你似乎對分類算法感興趣。首先,我想告訴你,數據挖掘不僅僅侷限於分類。還有其他數據挖掘任務,如挖掘頻繁模式,聚類等。

要回答您的問題,性能取決於算法,但也取決於數據集。對於某些數據集,某些算法可能比其他數據集具有更高的準確性。除了大多數數據挖掘書籍(C4.5等)中描述的經典分類算法之外,還有大量關於這些主題的研究論文發表。如果你想知道現在哪些算法通常表現更好,我建議閱讀研究論文。研究論文通常提供一些與以前算法的性能比較。但就像我說的,績效可能取決於你的數據。所以你可能不得不嘗試算法來找出!