我正在使用樸素貝葉斯文本分類機器學習問題。我將每個單詞都作爲一個特徵。我已經能夠實現它,並且我獲得了很好的準確性。使用樸素貝葉斯文本分類
我可以使用元組的詞作爲功能嗎?
例如,如果有兩個類,政治和體育。稱爲政府的這個詞可能出現在他們兩個中。然而,在政治上,我可以有一個元組(政府,民主),而在班級體育中,我可以有一個元組(政府,運動員)。因此,如果一篇新的文章出現在政治中,那麼元組(政府,民主)的可能性比元組(政府,運動員)的可能性更大。
我在問這是因爲通過這樣做我違反了樸素貝葉斯問題的獨立性假設,因爲我也在考慮單個單詞。
另外,我正在考慮爲要素添加權重。例如,三元組特徵的權重將小於四元組特徵。
從理論上講,這兩種方法不會改變Naive Bayes分類器上的獨立性假設嗎?另外,我還沒有開始提到我提到的方法,但這會提高準確性嗎?我認爲準確度可能不會提高,但獲得相同準確度所需的訓練數據量會更少。