我意識到相關問題Positives/negatives proportion in train set提出,對於Rocchio算法,正負比例爲1:1的正負比例有利。用於訓練基於隨機森林的二元分類器的正負比例訓練實例
但是,這個問題不同於相關問題,因爲它涉及隨機森林模型,也有以下兩種方式。
1)我有大量的訓練數據可供使用,使用更多訓練樣例的主要瓶頸是訓練迭代時間。也就是說,我寧願不要花一個多小時的時間來訓練一個排行榜,因爲我想快速迭代。
2)實際上,分類器可能會看到每4個反例的1個正面例子。
在這種情況下,我應該使用比正面例子更多的否定例子,還是等於正數和負數例子?