2015-03-18 45 views
0

「樸素貝葉斯的另一個系統性問題是 特徵被認爲是獨立的,因此,即使當單詞依賴時,每個單詞也貢獻了單獨的證據,因此 具有強詞性依賴關係 大於弱單詞依賴關係的類 爲了讓更多的依賴關係支配類, 我們規範了分類權重。 (Reference樸素貝葉斯例子中的特徵獨立性?

這究竟意味着什麼?有沒有更好的解釋它的例子?

+0

您引用了整段內容。什麼不清楚? – cel 2015-03-19 09:47:45

回答

2

樸素貝葉斯分類器認爲所有特徵彼此獨立。基本上這意味着功能組合的處理方式與每個功能單獨出現的方式相同。

E.g。考慮三句話

  1. 「紐約是一個擁擠的城市。」 「新車!我們提供最便宜的新車!」
  2. 「新酒吧的豬肉屠宰場」今天在紐約開幕。「

樸素貝葉斯分類器可能最終將標籤「紐約」分配給所有這些句子。那會發生,因爲它相互獨立地觀察單詞「新」和「約克」。從分類器的角度來看,第一句包含兩個詞,表示標籤「紐約」(即「新」和「約克」),第二個詞也是(「新」和後來的「新」),再次是第三個「新」和後來的「約克」)。它並不關心第二句錯過了「約克」一詞,因爲兩次「新」彌補了這一點(可能實際上並不是這樣,因爲「新」會出現在大量與紐約無關的文件中,但是對於這個例子,我們只是假設兩個詞都具有相同的權重)。分類器也不會在意第三句中彼此遠離的詞語。

Naive Bayes as a graphical model

樸素貝葉斯也可以表示爲圖形模型,作爲圖像(source)中所看到的。然後,您可以將y視爲「New York」類別,將x1 ... x4視爲可觀察的特徵「New」,「York」,「Big」,「Apple」。請注意,從y到x1 ... x4有連接,但不在每個x之間。

您發佈的段落的第二部分似乎是關於權重歸一化。基本上,如果您有任何關於類別「東京」和「洛杉磯」的文件,你認爲這些城市的名字觀察與到相應類別相同的權重指向,那麼文件只包含文字

東京洛杉磯

將由您的樸素貝葉斯分類器歸類爲屬於類別「洛杉磯」。這是因爲有兩種觀點支持這一類(「洛杉磯」,「洛杉磯」),但只有一種支持東京(「東京」)。因此,你需要一些方法來標準化你的權重以適應這個問題。

+0

'可能最終將標籤「紐約」分配給所有這些句子'第二句子上沒有'約克' – jean 2015-03-19 19:54:29

+0

是的,但是如果只有在觀察到「約克」的情況下才計數「新」,則該特徵'新'將取決於'約克'。在樸素貝葉斯中,所有特徵都被視爲有條件獨立於彼此。因此'P(「New」| )= P(「New」| ,「York」)'。所以你可以將文件歸類爲「關於紐約」,即使「約克」這個詞永遠不會出現在文件中。 (同樣,可能有數百個代表'紐約'的詞也不必出現在文檔中。) – aleju 2015-03-20 09:49:43