所以這個問題可能看起來有點愚蠢,但我無法把頭圍住它。 測試數據的目的是什麼?只是計算分類器的準確性?我正在使用樸素貝葉斯對推文進行情感分析。一旦我使用訓練數據訓練分類器,我只使用測試數據來計算分類器的準確性。如何使用測試數據來提高分類器的性能?監督學習中的測試數據的目的?
回答
你不 - 喜歡你猜測,測試數據用於測試,不得用於其他任何東西,以免你傾斜你的測量精度。這是任何機器學習的重要基石 - 如果您使用測試數據進行培訓,則只會欺騙自己。
如果你正在考慮這樣的孤注一擲的措施,提出了正確的解決方法通常是重新審視你的問題的空間,你有解決方案。它是否充分模擬了您正在嘗試解決的問題?如果不是,你能設計一個更好的模型來捕捉問題的本質嗎?
機器學習是不是銀彈。它不會爲你解決你的問題。太多失敗的實驗一遍又一遍地證明,「垃圾進入垃圾」。
在這樣做的一般監督的機器學習,測試數據集在決定模型的效果如何關鍵的作用。您通常會建立一個模型,其中包含您輸入數據的90%,並留下10%用於測試。然後通過觀察它對10%訓練集的效果,來檢查該模型的準確性。模型對測試數據的性能是有意義的,因爲模型從未「看到」過這些數據。如果模型在統計上是有效的,那麼它應該在訓練和測試數據集上表現良好。這個通用程序被稱爲交叉驗證,你可以閱讀更多關於它here。
你將你的設置到動車組+ DEV-測試設置如[這](http://stackoverflow.com/questions/10059594/a-simple-explanation-of-naive-bayes-classification) – CSK 2015-03-02 06:29:33
我不沒有任何與樸素貝葉斯合作的經驗,但我曾廣泛地使用決策樹(以及一些SVM)。您所介紹的文章看起來就是您正在做的事情。 – 2015-03-02 06:44:14
- 1. 異常檢測與監督學習
- 2. 使用PCA時監督學習和無監督學習的區別
- 3. Python監督機器學習
- 4. 無監督學習句子
- 5. 如何提出有監督和無監督學習的問題?
- 6. 有監督學習的情感分類
- 7. 減少監督學習的尺寸
- 8. 有監督學習及其可預測類別的數量
- 9. 監督機器學習幾個係數
- 10. 分類中的類似檢測(監督式學習)
- 11. 測試無監督機器學習算法
- 12. 小數據的最佳監督學習算法
- 13. 直接/間接和監督/無監督/強化學習
- 14. 圖像識別使用監督或無監督學習
- 15. 何時使用有監督或無監督學習?
- 16. 監督學習隨機森林通過
- 17. 什麼是弱監督學習(引導)?
- 18. 小結Algo小說:監督學習
- 19. 決策樹學習可以「半監督」
- 20. 準備包半監督學習
- 21. 正在接受隨機人員監督或無人監督學習的調查?
- 22. 爲無監督學習生成合成數據
- 23. 如何跟蹤監督學習中的標籤?
- 24. 使用深度學習技術的監督學習(文檔分類)
- 25. 如何爲受監督的機器學習項目構建目標變量
- 26. 充分利用無監督學習的數據瞭解到表示在pylearn2
- 27. 有監督機器學習的歷史標籤
- 28. 序列/時間序列監督學習的滯後值
- 29. 人類可解釋的監督機器學習算法
- 30. 通過scikit-learn進行迴歸的半監督學習
所以,增加我的訓練集是提高我的分類性能的唯一途徑? – CSK 2015-03-02 05:48:25
更好的模式通常是獲得實質性改進的唯一方法,這似乎就是您所問的。使用更好的功能,或者如果幸運的話,可以降低噪音功能;或者嘗試一種完全不同的方法。 – tripleee 2015-03-02 05:50:37
我嘗試從推文中剝離名詞和符號,但結果並不理想。如果你不介意,你可以建議任何其他改進以獲得更好的功能嗎? – CSK 2015-03-02 06:46:53