培訓集中班級的歸屬

在制定預測模型（特別是關於流失的遠程通信）時，是否必須在訓練集中的班級之間進行1：1分配（實際分配更像是1:50）？在閱讀其他人做過的事時，似乎是這樣。但他們並沒有非要說明這是一項要求。建議什麼？培訓集中班級的歸屬

2017-07-13 Ichibichi

我認爲你的問題會吸引更多的注意力放在stats.stackexchange.com;不過，我會在下面給出一個答案（相對一般的問題）的嘗試。 – JanLauGe

您的問題通常被稱爲「類不平衡」。是否以及如何影響結果取決於您使用的算法和評估指標。邏輯迴歸算法和模型精度，例如，可能非常容易受到這個問題的影響。另一方面，簡單的信封模型和模型AUC對類別失衡更具彈性。我知道有五種可能的方法來處理這個問題：

1）上採樣：基本上人工增加少數類的數量。當您的數據非常少時，這可能是一種解決方案，但您確信它可以代表更廣泛的人羣。

2）下采樣：只留出一部分豐富的類。當您擁有大量數據時，這是一個選項。

3）加權：告訴你的算法更重要的是從罕見的類獲得的信息。

4）套袋：在這裏，您隨機對您的數據進行二次採樣，並將「弱」學習者擬合到每個子採樣。之後，這些弱勢學習者被彙總起來創造一個最終的預測。 5）提升：與裝袋類似，但每個「弱」學習者對先前擬合的學習者並不是不可知的。相反，他們從最新的合奏中獲取殘差。

有一個really nice article here，通過這些很詳細進入，包括一些R工作的例子，並another one here它更側重於python

2017-07-13 14:18:24 JanLauGe

謝謝！正是我需要的！ – Ichibichi

回答