我必須實現樸素貝葉斯分類器將文檔分類到一個類。因此,在獲得屬於類的術語的條件概率以及拉普拉斯平滑時,我們有:拉普拉斯平滑伯努利模型樸素貝葉斯分類器
prob(t | c)= Num(Word出現在類c的文檔中)+ 1/Num(類c)中的文檔+ | V |
它是一個bernoulli模型,它可能有1或0,詞彙量非常大,可能有20000個單詞等等。所以,拉普拉斯平滑不會由於詞彙量龐大而給出非常小的值,或者我做錯了什麼。
根據此鏈接的僞代碼:http://nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html,對於bernoulli模型,我們只添加2而不是| V |。爲什麼這樣?
計算機科學交流? – MordechayS