Basicly我的問題是有關以下紙張組合(這是足以只讀部分1.Introduction
,部分3.Prediction model structure
和部分3.1 Decision tree feature transforms
的開始,一切就可以跳過去)決策樹與Logistic迴歸
https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da30e9b8dd.pdf
本文表明,與僅使用決策樹或線性分類(不是兩者)相比,在組合決策樹+線性分類(例如邏輯迴歸)的情況下,二元分類可以表現出更好的性能
簡單來說,訣竅是我們有幾個決策樹(爲了簡單起見,假設2棵樹,第一棵樹有3葉節點,第二棵樹有2葉節點)和一些實值特徵向量x它作爲輸入所有決策樹
所以,
- 如果第一樹的決定是leaf node 1
和第二樹的決定是leaf node 2
那麼線性分類將收到的二進制字符串[ 1 0 0 0 1 ]
- 如果第一樹的決定是leaf node 2
和第二樹的決定是leaf node 1
然後線性分類將收到二進制字符串[ 0 1 0 1 0 ]
等
但是,目前還不清楚對我來說,這班(多少),在這些決策樹使用,做到如果我們只用決策樹(沒有他們執行二元分類或多元等 線性分類),它是全部清楚的,即我們有class 0
或class 1
,但是在這種方案中,樹的輸出被組合成二進制串,饋送給線性分類器。目前還不清楚如何培訓這些決策樹?我們有什麼是前面提到的向量x和點擊/不點擊,這是線性分類輸出,而不是樹
任何想法?
在我看來,可能那些決策樹是迴歸樹,而不是分類樹。在那種情況下,葉節點值是實數,但是我仍然不明白在二進制向量內表示葉節點值的規則是什麼,即葉節點必須在分箱內轉換爲1或0的值。矢量 – mangusta