我有關於在文檔分類中使用的特定Naive Bayse算法的問題。以下是我的理解:使用naive bayse的文檔分類
- 結構爲每個已知的分類
- 設置的訓練每個單詞的一些可能給我們去除所有它包含
- 乘在一起的詞的概率詞的文檔存在於一個分類
- 執行(3)對於每一個分類
- 比較的結果(4),並選擇具有最高後
我感到困惑的是我們計算給定訓練集的每個單詞的概率的部分。例如,對於「香蕉」一詞,它出現在A類的100個文件中,A中共有200個文件,並且A中總共出現1000個單詞。爲了獲得A類下出現「香蕉」的概率,使用100/200 = 0.5或100/1000 = 0.1?
謝謝你,我做了一些研究,並意識到,我實現的方式是隻有每個文檔的方式編碼,它只告訴你如果有一個字出現與否伯努利模型,但不是它的頻率。 –
這是不正確的,伯努利模型將*不*給你比詞頻模型更好的結果,並且確實可以被認爲是全頻模型的貧化變體。例如參見:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.46.1529或http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.11。 8264 –
@BenAllison:我的直接經驗是用簡短的文件。這是一個很好的信息來源。我相應地更新了我的答案。 –