0

我已經實現了具有良好文本過濾的樸素貝葉斯文檔分類,並且我接受了具有良好準確性的統計結果,我需要使用EM算法來提高我的結果。用NaiveBayes實現期望最大化算法

但我不知道我是否可以申請EM算法與樸素貝葉斯結果或應用對數據的算法,並開始遍佈因此,我可以比較結果

在這兩種情況下,我需要到瞭解在這個問題上的EM算法的原因,而是真的困惑我

任何好解釋的文件可以理解

回答

1

EM通常有助於你與未標記的數據。如果你有一些未標記的數據,你基本上用它在一個週期這樣

estimate some initial parameters, perhaps even randomly 
while not converged: 
    relabel data using estimates 
    update estimates using new labels 

如果你正在做監督學習中,重標記步驟是吹走你的標籤,並有可能使你的分類變得更糟。

另一方面,這個is a nice, detailed tutorial on semi-supervised naive bayes用於文本分類。如果您有一些小標籤文檔和大量未標記文檔,您可以使用它們來估計初始參數,然後對未標記數據執行迭代步驟,最終得到更好的分類器。

+0

感謝您的鏈接,所以我不能將EM與NB結果合併爲了不讓我的結果變得粗糙,如果您對EM有很多瞭解,您認爲值得嘗試和比較它們嗎? – 2012-02-14 11:43:28

+0

NB是一個分類器,EM是一個推理算法。你想要比較什麼? – 2012-11-02 07:50:29