2010-08-25 67 views
0

我正在開發一個項目,我需要創建一個垃圾郵件數據庫並接受來自用戶的提交。接受提交很容易,但我試圖找出如何對這些提交加權。如何創建自定義垃圾郵件數據庫

假設數據庫包括的話,我也得到了以下意見: * 137X「香蕉」 * 22X「蘋果」 * 1個「爆炸式鼠標」

現在,有一個相當好的機會, 「香蕉」是一個垃圾郵件詞。 「蘋果」可能是,但應該在灰名單中考慮,而「爆炸鼠標」可能只是一個惡作劇。

任何人有什麼好主意?

乾杯!

回答

0

的標準方法是「貝」,在那裏你在對抗垃圾郵件在非垃圾郵件的詞頻(又名「火腿」)比較字的頻率。與此相關的問題是,雖然人們完全願意向您發送所有垃圾郵件,但他們不太可能希望向您轉發他們的火腿。

一個程序,已經做了這個被稱爲「bogofilter」。它有一個標準的Debian軟件包。

+0

謝謝,保羅。 儘管我無法得到所有的火腿,但我可以收集統計數據並獲取任何事件的總數並與垃圾郵件的頻率進行比較。 如何將概率設置爲最高的「詞」投訴率的百分比?如果「香蕉」有100個報告爲垃圾郵件,而「蘋果」只有40個,我可以說有40%的機會將「蘋果」作爲垃圾郵件? 問題是,這個數據庫將在世界不同地區使用,從而「香蕉」將被報告爲垃圾郵件不是「巴南」(斯堪的納維亞)多很多。 – user296353 2010-08-26 06:15:53

+0

如果「eple」(斯堪的納維亞的「蘋果」)得到了40%多的命中爲「巴南」和「巴南」得到了7%之多命中爲「香蕉」,「eple」將幾乎無論什麼視爲火腿報告數量(因爲所有的斯堪的納維亞都像一箇中等大的美國城市)...... – user296353 2010-08-26 06:17:14