2016-06-09 88 views
-1

1)我想對Twitter推文進行情緒分析。所以,我選擇使用datumbox-framework。我很懷疑我的訓練樣本的大小應該是多少? &如果我正在收集正面,負面,中性的訓練樣本,我是否應該爲所有訓練示例保持相同的大小? (即我可以收集10位,5位,15位中性作爲我的訓練集,或者我應該在我的訓練集中收集並保持相同大小pos = 10; neg = 10; neutral = 10的所有pos,neg,neutral)算法我用於twitter的情緒。 是海軍貝葉斯機器學習訓練數據集的大小應該是多少?

2)訓練數據集是否有任何大小限制?

+0

我可以知道爲什麼我的問題已經放棄投票的原因嗎? –

+0

它可能已經被低估了,因爲它可能導致基於意見的答案。 –

回答

1

訓練集:用於構建模型的數據集。 理想情況下,這些數據應該有偏差,並且應該包含將來可能出現的病例的所有可能性。

訓練集越大,結果越好。這更多的是訓練集中的測試用例,你的模型越好。所以儘量多包含pos,neg或者twits。

沒有理想的訓練集大小。並有可能永遠是一個訓練集這將預測的測試用例權100%,這是因爲系統不理解諷刺:d

,並沒有爲訓練集沒有大小限制。

注意:訓練集必須是隨機的,你不能使用10pos,2neg,3中性等,因爲這會使它偏向。

一般建議:使用60-70%進行培訓,其餘進行驗證&測試。

+0

謝謝。我是否需要在某個時間更新訓練集?我沒有任何關於如何使用驗證和測試的想法@AniMenon –

+0

您可以隨時考慮使用更大的訓練集來改進您的模型。驗證是檢查有多少記錄被正確分類並檢查如何改進分類的過程。測試是在訓練過的模型上運行新數據以找出模型的準確性的階段。 –

+0

好的,謝謝@Ani Menon –

相關問題