2015-03-02 64 views
0

所以這個問題可能看起來有點愚蠢,但我無法把頭圍住它。 測試數據的目的是什麼?只是計算分類器的準確性?我正在使用樸素貝葉斯對推文進行情感分析。一旦我使用訓練數據訓練分類器,我只使用測試數據來計算分類器的準確性。如何使用測試數據來提高分類器的性能?監督學習中的測試數據的目的?

回答

0

你不 - 喜歡你猜測,測試數據用於測試,不得用於其他任何東西,以免你傾斜你的測量精度。這是任何機器學習的重要基石 - 如果您使用測試數據進行培訓,則只會欺騙自己。

如果你正在考慮這樣的孤注一擲的措施,提出了正確的解決方法通常是重新審視你的問題的空間,你有解決方案。它是否充分模擬了您正在嘗試解決的問題?如果不是,你能設計一個更好的模型來捕捉問題的本質嗎?

機器學習是不是銀彈。它不會爲你解決你的問題。太多失敗的實驗一遍又一遍地證明,「垃圾進入垃圾」。

+0

所以,增加我的訓練集是提高我的分類性能的唯一途徑? – CSK 2015-03-02 05:48:25

+0

更好的模式通常是獲得實質性改進的唯一方法,這似乎就是您所問的。使用更好的功能,或者如果幸運的話,可以降低噪音功能;或者嘗試一種完全不同的方法。 – tripleee 2015-03-02 05:50:37

+0

我嘗試從推文中剝離名詞和符號,但結果並不理想。如果你不介意,你可以建議任何其他改進以獲得更好的功能嗎? – CSK 2015-03-02 06:46:53

1

在這樣做的一般監督的機器學習,測試數據集在決定模型的效果如何關鍵的作用。您通常會建立一個模型,其中包含您輸入數據的90%,並留下10%用於測試。然後通過觀察它對10%訓練集的效果,來檢查該模型的準確性。模型對測試數據的性能是有意義的,因爲模型從未「看到」過這些數據。如果模型在統計上是有效的,那麼它應該在訓練和測試數據集上表現良好。這個通用程序被稱爲交叉驗證,你可以閱讀更多關於它here

+0

你將你的設置到動車組+ DEV-測試設置如[這](http://stackoverflow.com/questions/10059594/a-simple-explanation-of-naive-bayes-classification) – CSK 2015-03-02 06:29:33

+0

我不沒有任何與樸素貝葉斯合作的經驗,但我曾廣泛地使用決策樹(以及一些SVM)。您所介紹的文章看起來就是您正在做的事情。 – 2015-03-02 06:44:14