瞭解樸素貝葉斯

我一直在環顧四周，似乎無法找到這個問題的答案：
如果我訓練樸素貝葉斯是一些數據的分類器。然後我重新使用這個訓練數據作爲測試數據。我不應該獲得100％的分類成功嗎？謝謝閱讀！瞭解樸素貝葉斯

編輯：我似乎已經刺激了我的理解水平以上的討論。因此，我不認爲取決於「接受」答案的角色取決於我。不過，我很感謝您的意見，並會閱讀所有答案。

2016-05-09 OctaveParango

不是。數據中的所有可變性都可能在所選功能中解釋。想象一下，你正在分類是否是打網球的好日子。你的特徵是溫度，風，高度。這些可能是很好的描述，但你並沒有訓練鎮上是否有遊行！在遊行的日子裏，網球場被封鎖了，所以儘管你的特徵應該很好地解釋已知的數據，但是有些離羣值並不適合這些特徵。

通常，數據中存在隨機性，您將無法捕獲100％。

每個評論下面更新

的問題是訓練和測試在同一數據集是否將是100％準確的，這個我想大家都同意是不行的（他們沒有問什麼的假設NB）。這裏是一個樣本數據集展示上面的情形：

import pandas as pd 
import numpy as np 
from sklearn.naive_bayes import GaussianNB 

gnb = GaussianNB() 

df = pd.DataFrame([[1,1,0],[1,0,0],[0,0,1],[1,0,1],[1,1,0]], columns = ['hot','windy','rainy']) 
targets = [1,1,0,0,0] 
preds = gnb.fit(df, targets).predict(df) 

print preds 
array([1, 1, 0, 0, 1])

注意，第一殼體和所述最後一種情況下是相同的，但分類器錯過了最後一種情況下預測。這是因爲手邊的數據並不總是完全描述伴隨的分類。 NB還有很多其他的假設，也可以描述它失敗的情況（你很好地指出），但我的目標只是提出一個快速示範，希望他們能夠理解並回答這個問題。

來源

2016-05-09 14:24:35 flyingmeatball

感謝您的幫助 – OctaveParango

讓我們假設一個假設的「完美」特徵選擇，在這裏我們訓練重要的「全部」和「唯一」特徵空間。樸素貝葉斯在這種情況下會有100％的準確性嗎？只是試圖讓這個話題更有趣！ ;） – Gevorg

對於任何分類器，如果您使用100％描述的數據訓練它，您將具有100％的準確性。 – flyingmeatball

其實，儘管被接受的答案，@ flyingmeatball的答案是（至少部分）在這種特殊情況下是錯誤的。它描述了相關現象，但顯然不是所給出情況的關鍵。

您所描述的是一種情況，您希望您的模型具有100％的培訓準確性，而事實並非如此。這與「數據不足以表達現象」無關 - 這可能是高泛化錯誤，而不是培訓一。

不到100％的訓練錯誤意味着，也許數據本身的噪音太大以至於不能模擬（哪些flymeatball表明），但實際上，對於訓練集來說，當且僅當兩個完全相同的點時，情況纔是與不同的標籤。如果情況並非如此（可能不是），那麼實際的「問題」是您選擇的模型有一些內部偏差。簡單地說 - 假設假設關於數據，甚至約束，即使數據明顯不遵循它，您的模型也不會改變。特別是，樸素貝葉斯有兩個這樣的假設：

特點是獨立的，也就是說，不存在相關性，比當時的單一功能的標籤，更之間沒有重要的一環。如果你的特徵是風和溫度，樸素貝葉斯會假設它可以根據溫度本身作出正確的決定，例如假定「良好的溫度大約20度」，風也是如此，例如「最多10公里/小時」。它將無法找到基於兩個值的關係，如「它是溫度減去風至少30重要」，或者類似的東西
它假設在每個特徵值的特定分佈 - 通常是這是多項分佈或高斯分佈。這些都是很好的分佈系列，但很多功能並不遵循它們。例如，如果您的功能是「人們在我的雜貨店購買的時間」（例如，您將其視爲連續變量，在幾微秒內精確測量等），您會注意到，您有兩個「高峯時間」早上和傍晚時分，因此樸素貝葉斯將做一個可怕的工作，擬合一個高斯，而在中午將會有一個高峯！再次，錯誤的假設導致錯誤的決定。

爲什麼我們要做這樣的假設呢？那麼，由於許多原因，但其中之一是，因爲我們關心泛化而不是訓練，因此這是一種以「不足」訓練集爲代價來防止我們的模型過度擬合的方法。這也有助於處理噪音，簡化優化，並使許多其他美好的事情:-)

希望這會有所幫助。

來源

2016-05-09 20:25:24 lejlot

爲了跟進，我認爲唯一的假設是功能是獨立的？我的特徵向量是一組布爾值，我試圖執行二進制分類。我想知道，因爲：可能有幾種情況下兩個相同的向量/數據點映射到不同的類/標籤。 – OctaveParango

瞭解樸素貝葉斯

回答

相關問題