我對數據集(有6個目標類)有多類分類問題。訓練數據的類標籤分佈有偏斜:下面是每個類的分佈類別標籤(1〜6)關於在vowpal中設置權重的實用指導wabbit
(array([174171, 12, 29, 8285, 9996, 11128]),
的我使用vowpal wabbit的OAA方案進行分類,並試圖1.0對於每個實施例的默認權重。然而,對於大多數模型而言,這隻會導致模型預測評估中的所有示例均爲1.0(因爲標籤1在訓練集中具有非常大的表示形式)。
我想現在試驗不同的權重,我可以應用到每個類的示例,以幫助提高分類器的性能。
關於決定每個示例權重的技巧的任何指針或實用技巧將非常有用。一種可能的技術是根據它們的頻率來權衡反比例子。不幸的是,這似乎導致分類器對標籤2和3有很大的偏見,並且在評估中幾乎預測了2和3。
在決定權重時,模型選擇是否起作用?我正在試驗神經網絡和邏輯和鉸鏈損失函數。