2012-03-06 74 views
1

我使用Weka的GUI對文本文檔進行分類。我的數據集是.arff格式。Weka的GUI下NaiveBayes的奇怪結果

我應用了StringToWordVector過濾器。然後,我應用RemovePercentage過濾器將我的數據集分爲火車和測試集。它總共包含99個實例和934個屬性。在火車測試分裂之後,火車集合包含66個實例並且測試集合包含33個實例。

我在列車集中學習模型:結果是100%作爲精度 然後,我測試在測試集上學習的模型:結果是3.0303%。

任何人都可以幫助我理解爲什麼我得到3.0303%以及如何改善這個結果?

回答

2

樸素貝葉斯模型學到的是overfitted。您可以嘗試不同的火車/測試分組(或cross validation)以防止發生此情況。您還可以嘗試調整樸素貝葉斯算法的參數或使用其他參數。

+0

你能告訴我怎麼用Weka的GUI做到這一點嗎? – Marie 2012-03-07 05:52:01

+0

我想通過使用Weka的GUI來遵循本視頻中提供的解決方案:[鏈接](https://www.ai-class.com/course/video/videolecture/54)。任何人都可以幫我嗎? – Marie 2012-03-07 05:57:53

+0

測試/訓練分割或交叉驗證的選擇位於預測窗口左上角的上半部分,您可以通過單擊它來調整算法的參數。 – 2012-03-07 08:49:04