2012-05-16 248 views

回答

34

實際上,有一個很好的例子on Wikipedia

在簡單術語中,樸素貝葉斯分類器假定一個類的特定特徵的存在(或不存在)是無關的存在(或不存在)給定類變量的任何其他功能。例如,如果水果是紅色,圓形,直徑約4英寸,則認爲它是蘋果,即使這些特徵相互依賴或存在其他特徵,但樸素貝葉斯分類器會將所有如果你的數據是這些屬性的獨立貢獻,這水果是蘋果的概率。

基本上,它是「幼稚」,因爲它的前提,可能會或可能不會變成是正確的。

+5

維基百科的文章正確地解釋了它,但我不同意「它使得假設可能會或可能不會證明是正確的」。利用適量的訓練數據,它可以很好地篩選出不相關的參數。 「天真」的部分是不考慮參數之間的依賴性,因此可能需要查看冗餘數據。 – Chip

6

由一個特徵向量X = {x1,x2,... x10}和你的類標籤Y = {y1,y2,... y5}組成。因此,貝葉斯分類器可以識別正確的類標籤,公式:

P(y/X)= P(X/y)* P(y)= P(x1,x2,... x10/y)* P(y)

因此,不天真。然而,很難計算P(x1,x2,... x10/Y),所以我們假設這些特徵是獨立的,這就是我們所說的樸素假設,因此,我們最終得到下面的公式

P(Y/X)= P(X/Y)* P(X2/Y)* ... P(X10/Y)* P(Y)

2

這就是所謂的幼稚,因爲它使假設所有屬性都是相互獨立的。這個假設就是爲什麼它被稱爲天真的,因爲在很多現實世界中,這是不合適的。儘管如此,分類器在很多真實世界的情況下工作得非常好,並且在某些情況下(儘管不是全部),其性能與中性網絡和SVM相當。

0

對於發現聯合分佈時的分類問題,它只是反映了訓練數據,而且計算起來也很困難。所以我們需要一些更有用的概括。

幼稚模型強烈推論,每個屬性獨立於任何其他屬性分佈。

它確實有助於在很大程度上不關心屬性間的依賴關係。