我正在使用樸素貝葉斯分類器。在此之後tutorial。 對於訓練有素的數據,我使用308個問題並將它們分類爲26個手動標記的類別。 發送數據之前,我正在執行NLP。在NLP中,我正在執行(標點符號刪除,標記化,停用詞刪除和詞幹) 此過濾的數據用作mahout的輸入。 使用mahout NBC的我訓練這些數據並獲取模型文件。現在當我運行如何提高樸素貝葉斯分類器的準確性?
mahout testnb
命令我得到正確的分類實例爲96%。
現在對於我的測試數據,我使用了100個我已經手動標記的問題。當我用測試數據使用訓練好的模型時,我得到正確的分類實例爲1%。 這讓我很失望。
任何人都可以建議我做錯了什麼,或者建議我一些方法來提高NBC的性能。
此外,理想情況下,我應該使用多少個問題數據來訓練和測試?
你有300個標記的輸入「向量」的培訓?你是認真的嗎? –
@ThomasJungblut是300以下?我們應該爲每個班級/類別理想地培訓多少個問題? – SLearner