2011-02-01 40 views
8

我想知道貝葉斯分類器是否適用於其中相關短語「服務冷」(例如)在關聯某些東西(啤酒,蘇打水)時是「好」但與其他東西相關時是「壞」的應用牛排,披薩,漢堡)?想知道貝葉斯分類器是否正確?

我想知道的是,如果訓練貝葉斯分類器(「啤酒冷」和「蘇打冷」是「好」),取消訓練「牛排服冷」和「漢堡冷服」是「不好的」 「)。

或者,貝葉斯(正確)可以訓練「服冷」可能是「好」還是「壞」,取決於它與什麼相關?

我在這裏和其他地方發現了許多有關貝葉斯的良好信息,但無法確定它是否適合這種類型的應用程序,其中一個短語的好壞是「它取決於」?

+0

,順便說一句,我們有一個比較小的數名詞(下100)和相對較少的形容詞(50 ),所以我們可以高興地預先定義一個相當完整的好/壞組合的結構......但不確定什麼樣的備用「評分引擎」可以讓短消息得分。 – jpwynn 2011-02-01 22:11:14

回答

6

A Naive Bayes classifier假定屬性之間是獨立的。例如,假設您有以下數據:

蘋果果實紅糟
蘋果果綠BAD
香蕉果實黃GOOD
番茄蔬菜紅色GOOD

獨立,意味着屬性(名稱,水果,顏色)是獨立的;例如,「蘋果」可能是「水果」或「蔬菜」。在這種情況下,屬性「名稱」和「水果」是相關的,所以樸素貝葉斯分類器太天真(它可能會將「蘋果果實黃色」歸類爲BAD,因爲它是一個蘋果,它是一種水果 - 但不是所有的蘋果水果?)。

爲了回答你原來的問題,一個樸素貝葉斯分類器假設類(GOOD或BAD)獨立依賴於每個屬性,事實並非如此 - 我喜歡我的比薩餅熱和我的蘇打冷。

編輯:如果你正在尋找一個具有一定效用的分類器,但理論上可能有許多類型I和類型II錯誤,樸素貝葉斯是這樣一個分類器。樸素貝葉斯總比沒有好,但是在使用不太天真的分類器方面有可衡量的價值。

+0

很好的解釋和答案!謝謝!!! – jpwynn 2011-02-05 00:12:49

2

我不會像丹尼爾所說的那樣快地駁回貝耶斯。 貝葉斯的質量(在數學上的表現)取決於訓練數據的數量和質量,以及您在開發算法時所做的假設。爲了給你一個簡單的例子,如果你只餵食{'beer cold'=>:good,'pizza cold'=>:bad},'cold'這個詞實際上不會影響分類。它只會決定所有的啤酒都很好,所有的比薩餅都不好(看看它有多聰明:))

無論如何,答案太短,無法詳細解釋這一點,我會推薦閱讀Paul Graham的文章他開發了他的垃圾郵件過濾器 - 注意他基於貝葉斯製作了自己的算法,而不僅僅是現成的分類器。在我的(至今很短的)經驗中,似乎你最好跟隨他開發特定版本的算法以適應特定的問題,因此您可以控制各種特定領域的假設。

你可以按照我的嘗試(紅寶石)這裏,如果你有興趣:http://arubyguy.com/2011/03/03/bayes-classification-update/在我們的應用