2014-07-08 35 views
2

我正在使用vowpal wabbit進行邏輯迴歸。我開始知道vowpal wabbit從給定的訓練數據中選擇了一個保留集來驗證。這個集合是隨機選擇的嗎?我有一個非常不平衡的數據集,有100多個例子和1000個例子。我想知道給這個訓練數據,哇哇wabbit如何選擇保留的例子?如何在vowpal中選擇暫停集合wabbit

如何分配更多的權重+五個例子

回答

5

默認情況下,每例10用於抵抗(你可以用--holdout_period改變它, 看https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments#holdout-options)。 這意味着,只有在90%的訓練數據上才能訓練用於保持評估的模型。 這可能會導致準確度稍差。 另一方面,它允許您使用--early_terminate(默認設置爲3次), ,這可以更輕鬆地降低過多訓練通行證導致的過度訓練風險。 請注意,默認情況下,只有在使用多次傳球時(如果不使用漸進式驗證損失),纔會進行維護評估。

至於第二個問題,您可以將重要性權重添加到正面示例中。默認重要性權重爲1.請參閱https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format