我想實現我的第一個垃圾郵件過濾器使用樸素貝葉斯分類器。我正在使用UCI機器學習數據庫(http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection)提供的數據。數據是與幾千個垃圾郵件和非垃圾郵件(火腿)消息相對應的功能表。因此,我的功能僅限於桌面提供的功能。天真的垃圾郵件過濾
我的目標是實現一個分類器,可以計算P(S|M),垃圾郵件被髮送的概率。到目前爲止,我一直在使用下面的公式來計算P(S | F),即給出一個特徵的垃圾郵件的概率。
P(S|F)= P(F|S)/從http://en.wikipedia.org/wiki/Bayesian_spam_filtering
(P(F|S)+ P(F|H))其中P(F|S)的概率給定垃圾郵件的特徵和P(F|H)是給出火腿特徵的概率。我無法彌補知道P(S | F)到P(S | M)的差距,其中M是消息,而消息只是一個獨立的功能包。
一眼望去,我只想將這些特徵放在一起。但那會使大多數數字非常小,我不確定這是否正常。
總之,這些是我現在的問題。
1.)如何將一組P(S | F)取到P(S | M)。 2.)一旦計算了P(S|M),我如何爲我的分類器定義一個閾值? 3.)幸運的是,我選擇了我的功能集,我將如何去選擇或找到我自己的功能集?
我也很感謝那些可能幫助我的資源。謝謝你的時間。