機器學習訓練數據集的大小應該是多少？

-1

1）我想對Twitter推文進行情緒分析。所以，我選擇使用datumbox-framework。我很懷疑我的訓練樣本的大小應該是多少？ &如果我正在收集正面，負面，中性的訓練樣本，我是否應該爲所有訓練示例保持相同的大小？（即我可以收集10位，5位，15位中性作爲我的訓練集，或者我應該在我的訓練集中收集並保持相同大小pos = 10; neg = 10; neutral = 10的所有pos，neg，neutral）算法我用於twitter的情緒。是海軍貝葉斯。機器學習訓練數據集的大小應該是多少？

2）訓練數據集是否有任何大小限制？

來源

2016-06-09 bunny sunny

我可以知道爲什麼我的問題已經放棄投票的原因嗎？ –

它可能已經被低估了，因爲它可能導致基於意見的答案。 –

訓練集：用於構建模型的數據集。理想情況下，這些數據應該有偏差，並且應該包含將來可能出現的病例的所有可能性。

訓練集越大，結果越好。這更多的是訓練集中的測試用例，你的模型越好。所以儘量多包含pos，neg或者twits。

沒有理想的訓練集大小。並有可能永遠是一個訓練集這將預測的測試用例權100％，這是因爲系統不理解諷刺：d

，並沒有爲訓練集沒有大小限制。

注意：訓練集必須是隨機的，你不能使用10pos，2neg，3中性等，因爲這會使它偏向。

一般建議：使用60-70％進行培訓，其餘進行驗證&測試。

來源

2016-06-09 09:50:59

謝謝。我是否需要在某個時間更新訓練集？我沒有任何關於如何使用驗證和測試的想法@AniMenon –

您可以隨時考慮使用更大的訓練集來改進您的模型。驗證是檢查有多少記錄被正確分類並檢查如何改進分類的過程。測試是在訓練過的模型上運行新數據以找出模型的準確性的階段。 –

好的，謝謝@Ani Menon –

機器學習訓練數據集的大小應該是多少？

回答

相關問題