2012-12-27 78 views
-2

IM努力理解的訓練/測試數據的作用,對我的正確分類情況下產生的效果。/培訓效果導致

,如果我在百分比適用更多的測試數據拆分算法變得更加可靠,樸素貝葉斯的例子嗎?

回答

1

分割你的整個數據集分成訓練和測試的一點是,你要學會(樸素貝葉斯或其他方式)的模型應該反映因果(功能和預測),而不是簡單的數據之間的真實關係。例如,你總是可以對許多數據點完美地擬合一條曲線,但這樣做可能會使它對你想要做的預測毫無用處。

通過使用單獨的測試集,在未看到的數據上測試了學習模型。理想情況下,訓練和測試集中的錯誤(或者您測量的任何內容)大致相同,這表明您的模型是相當一般的,而不是過度訓練數據。

如果你的情況,降低訓練集的大小對測試集提高性能,它表明,學習模式太具體,不能一概而論。但是,不應該改變訓練/測試分割,而應該調整學習者的參數。您可能還想考慮使用cross validation而不是簡單的培訓/測試拆分,因爲它會提供更可靠的性能估計。