2017-07-13 87 views
0

在制定預測模型(特別是關於流失的遠程通信)時,是否必須在訓練集中的班級之間進行1:1分配(實際分配更像是1:50) ?在閱讀其他人做過的事時,似乎是這樣。但他們並沒有非要說明這是一項要求。建議什麼?培訓集中班級的歸屬

+0

我認爲你的問題會吸引更多的注意力放在stats.stackexchange.com;不過,我會在下面給出一個答案(相對一般的問題)的嘗試。 – JanLauGe

回答

0

您的問題通常被稱爲「類不平衡」。是否以及如何影響結果取決於您使用的算法和評估指標。邏輯迴歸算法和模型精度,例如,可能非常容易受到這個問題的影響。另一方面,簡單的信封模型和模型AUC對類別失衡更具彈性。我知道有五種可能的方法來處理這個問題:

1)上採樣:基本上人工增加少數類的數量。當您的數據非常少時,這可能是一種解決方案,但您確信它可以代表更廣泛的人羣。

2)下采樣:只留出一部分豐富的類。當您擁有大量數據時,這是一個選項。

3)加權:告訴你的算法更重要的是從罕見的類獲得的信息。

4)套袋:在這裏,您隨機對您的數據進行二次採樣,並將「弱」學習者擬合到每個子採樣。之後,這些弱勢學習者被彙總起來創造一個最終的預測。 5)提升:與裝袋類似,但每個「弱」學習者對先前擬合的學習者並不是不可知的。相反,他們從最新的合奏中獲取殘差。

有一個really nice article here,通過這些很詳細進入,包括一些R工作的例子,並another one here它更側重於python

+0

謝謝!正是我需要的! – Ichibichi