監督學習中的測試數據的目的？

所以這個問題可能看起來有點愚蠢，但我無法把頭圍住它。測試數據的目的是什麼？只是計算分類器的準確性？我正在使用樸素貝葉斯對推文進行情感分析。一旦我使用訓練數據訓練分類器，我只使用測試數據來計算分類器的準確性。如何使用測試數據來提高分類器的性能？監督學習中的測試數據的目的？

來源

2015-03-02 CSK

你不 - 喜歡你猜測，測試數據用於測試，不得用於其他任何東西，以免你傾斜你的測量精度。這是任何機器學習的重要基石 - 如果您使用測試數據進行培訓，則只會欺騙自己。

如果你正在考慮這樣的孤注一擲的措施，提出了正確的解決方法通常是重新審視你的問題的空間，你有解決方案。它是否充分模擬了您正在嘗試解決的問題？如果不是，你能設計一個更好的模型來捕捉問題的本質嗎？

機器學習是不是銀彈。它不會爲你解決你的問題。太多失敗的實驗一遍又一遍地證明，「垃圾進入垃圾」。

來源

2015-03-02 05:36:52 tripleee

所以，增加我的訓練集是提高我的分類性能的唯一途徑？ – CSK 2015-03-02 05:48:25

更好的模式通常是獲得實質性改進的唯一方法，這似乎就是您所問的。使用更好的功能，或者如果幸運的話，可以降低噪音功能;或者嘗試一種完全不同的方法。 – tripleee 2015-03-02 05:50:37

我嘗試從推文中剝離名詞和符號，但結果並不理想。如果你不介意，你可以建議任何其他改進以獲得更好的功能嗎？ – CSK 2015-03-02 06:46:53

在這樣做的一般監督的機器學習，測試數據集在決定模型的效果如何關鍵的作用。您通常會建立一個模型，其中包含您輸入數據的90％，並留下10％用於測試。然後通過觀察它對10％訓練集的效果，來檢查該模型的準確性。模型對測試數據的性能是有意義的，因爲模型從未「看到」過這些數據。如果模型在統計上是有效的，那麼它應該在訓練和測試數據集上表現良好。這個通用程序被稱爲交叉驗證，你可以閱讀更多關於它here。

來源

2015-03-02 05:44:49

你將你的設置到動車組+ DEV-測試設置如[這]（http://stackoverflow.com/questions/10059594/a-simple-explanation-of-naive-bayes-classification） – CSK 2015-03-02 06:29:33

我不沒有任何與樸素貝葉斯合作的經驗，但我曾廣泛地使用決策樹（以及一些SVM）。您所介紹的文章看起來就是您正在做的事情。 – 2015-03-02 06:44:14

監督學習中的測試數據的目的？

回答

相關問題