2016-11-02 56 views
0

我想比較從邏輯迴歸和CART模型獲得的ROC曲線。我發現邏輯迴歸的ROC曲線非常平滑。這是有道理的,因爲閾值範圍在[0,1]之間是連續的。我想了解爲何CART模型的ROC曲線不平滑。在此先感謝您的幫助。爲什麼我們不能在CART模型中獲得平滑的ROC曲線

+0

邏輯迴歸適合連續函數。樹木是離散的。但即使邏輯迴歸也會產生階梯狀的ROC曲線,如果你的數據不是光滑的。 – Gregor

+0

我正在提名此遷移到datascience.stackexchange - 它似乎不是一個編程問題。 – Gregor

+0

偏離主題:遷移到datascience.stackexchange – Gregor

回答

0

原因很簡單 - 決策樹中的閾值很清晰,因爲這通常是樹葉中類的有效比率。如果你有N個訓練點,葉子可能只有N種不同的可能比率,因此(最多)N個可能的分類可以通過移動這個閾值來獲得。你可以通過以下方式來解決這個問題,最後每個點在落到某個葉子時被分類。在這個葉子裏,你有K個陽性和M個陰性樣本。根據K /(M + K)>閾值將您歸類爲正類。 K /(M + K)可以有多少個不同的值?你的樹有多少片樹葉?最後,這些數字並不那麼大(它們比N小),因此大多數閾值都不會改變。更直觀 - 決策樹以大塊分割您的輸入空間。一旦你翻轉一個門檻(葉),一個大塊會改變班級(顏色) - 從而在你的ROC曲線上產生巨大的跳躍。

對於邏輯迴歸,您幾乎總是有所有可能性,因爲一旦您訓練了w,每個測試/訓練點將會有不同的投影(假設它們來自某種連續分佈),因此當您在此移動閾值(1 /(1 + exp(< w,x> + b))>閾值),您將獲得N + 1個可能的標記,因爲如果在w上顯示投影點,它將如下所示:

* *   * * * * * *  *  * *  * * 
---------------------------------------------------------------> 
<w, x> 

根據閾值的選擇,您將對從-inf到閾值的所有內容進行分類並保留到另一個(從而創建N + 1個可能的標記),從而爲您提供平滑的ROC曲線。