確定爲什麼要素在決策樹模型中很重要

經常利益相關者不希望有一個很好的預測黑箱模型;他們希望瞭解有關功能的深入瞭解，以便他們能夠向其他人解釋。確定爲什麼要素在決策樹模型中很重要

當我們檢查xgboost或sklearn漸變增強模型的特徵重要性時，我們可以確定特徵的重要性......但我們不明白爲什麼這些特徵很重要，是嗎？

有沒有辦法解釋不僅是什麼功能重要，而且爲什麼它們很重要？

我被告知使用shap但即使運行一些樣板實例拋出錯誤，所以我在尋找替代品（或者甚至只是一個程序性的方法來檢查樹木和蒐集的見解，我可以比plot_importance()情節其他帶走）。

在下面的例子中，我們如何去解釋爲什麼特徵f19是最重要的（同時也意識到決策樹是隨機的，沒有random_state或種子）。

from xgboost import XGBClassifier, plot_importance 
from sklearn.datasets import make_classification 
import matplotlib.pyplot as plt 
X,y = make_classification(random_state=68) 
xgb = XGBClassifier() 
xgb.fit(X, y) 
plot_importance(xgb) 
plt.show()

更新： 我正在尋找的是一個綱領性訴訟證據，該模式選擇功能，上面的預測能力貢獻無論是正面還是負面的。我希望看到代碼（而不是理論）你將如何去檢查實際模型並確定每個功能的正面或負面貢獻。目前，我認爲這是不可能的，所以有人請證明我錯了。我很想做錯！

我也明白決策樹是非參數的，沒有係數。還有，有沒有辦法看到一個特徵對某個特徵的貢獻是正的（這個特徵的一個單位是增加y還是負的）（這個特徵的一個單位減少y）。

UPDATE2： 儘管大拇指朝下在這個問題上，和幾個「關閉」票，看來這個問題不是那麼瘋狂。 Partial dependence plots可能是答案。

Friedman（2001）介紹了部分相關圖（PDP），其中解釋了複雜的機器學習算法。解釋一個線性迴歸模型並不像解釋支持向量機，隨機森林或梯度複雜機器模型，這是Partial Dependence Plot可以來投入使用。對於一些統計解釋，你可以參考這裏和更多 Advance。一些算法具有用於找到變量的重要性的方法，但它們不表示是否變量是肯定或否定影響模型。

來源

2017-11-04 Jarad

tldr; http://scikit-learn.org/stable/auto_examples/ensemble/plot_partial_dependence.html

我想澄清一些措辭，以確保我們在同一頁上。

預測功率：什麼功能顯著向預測
特性依賴：是本特徵正電或負相關，即，是否在特徵X的變化引起的預測塊y增大/減小

1.預測功率

您的功能重要性顯示您保留了大部分信息，並且是最重要的功能重要功能。權力可能意味着什麼導致了最大的變化 - 你必須通過插入虛擬值來檢查它們的整體影響，就像你必須處理線性迴歸係數一樣。

2.相關性/相關性

正如@ Tiago1984指出的那樣，它很大程度上取決於底層的算法上。 XGBoost/GBM是建立一個存根的委員會（樹木數量少，通常只有一個分割）的委員會。

在迴歸問題中，樹通常使用與MSE相關的標準。我不會詳細介紹所有細節，但您可以在這裏閱讀更多內容：https://medium.com/towards-data-science/boosting-algorithm-gbm-97737c63daa3。

你會看到，在每一步它都會計算一個弱方向學習者的「方向」矢量，所以你原則上知道它的影響方向（但是要記住它可能會出現多次樹，在添加劑模型的多個步驟中）。

但是，爲了追逐;您可以修復除f19之外的所有功能，並預測一系列f19值，並查看它與響應值的關係。

看看部分依賴地塊：http://scikit-learn.org/stable/auto_examples/ensemble/plot_partial_dependence.html

還有在統計學習，10.13.2章元素上的一章。

來源

2017-11-05 15:32:13 jonnybazookatone

問一個特性對輸出變量有什麼方向是不合理的嗎？例如，假設您正在進行二元分類，並且功能f19是「重要的」。那麼假設你檢查了f19值的比例，並且看到它的預測比例很高，而不是0，那麼你可能會得出結論，它會影響正向輸出。但是讓我們假設你做了同樣的事情，並且注意到它有更高比例的0（零）。在這種情況下，它的影響是重要的，因爲它缺少什麼，而不是它可以幫助預測的。這就是我所掌握的。 – Jarad

您可以對分類預測做一個部分依賴關係圖，因此您可以針對固定的一組特徵獲得'f19'值與預測值的關係。「無理要求」在情境特定的情況下是非常具體的，在利益相關者的情況下，我認爲你可以看到依賴情節中的一些重要特徵，但不會試圖解釋細節，或者將其作爲因果關係的證據。 – jonnybazookatone

我正在選擇你的答案，因爲它是最具有可操作性和方向性的。謝謝！ – Jarad

功能的「重要性」取決於您用來構建樹的算法。例如，在C4.5樹中，經常使用最大熵標準。這意味着功能集是允許用更少的決策步驟進行分類的功能集。

來源

2017-11-04 01:20:56 Tiago1984

當我們檢查xgboost或sklearn漸變增強模型的特徵重要性時，我們可以確定特徵的重要性......但我們不明白爲什麼特徵很重要，是嗎？

是的，我們做。特徵重要性不是一些神奇的物體，它是一個明確定義的數學標準 - 其確切的定義取決於特定的模型（和/或一些額外的選擇），但它總是一個告訴「爲什麼」的對象。「爲什麼」通常是最基本的東西，歸結爲「因爲它具有最強的預測能力」。例如，對於隨機森林特徵而言，重要性是衡量隨機選擇的訓練數據點通過樹時，在特定決策路徑上使用此特徵的可能性。所以它在適當的數學意義上給出了「爲什麼」。

來源

2017-11-04 01:58:03 lejlot

但我想說更多的線性迴歸。在線性迴歸中，我們得到係數。一些係數對y變量有正影響（正係數），有些則負（負係數）。在決策樹中，我們可以確定一個特徵對其預測性的正面或負面貢獻嗎？如果是這樣，一個例子將會有很長的路要走 - 如何判斷一個特徵的正面或負面貢獻。 – Jarad

以編程方式，從上面的示例中，您將如何檢查模型以顯示f19是正面還是負面貢獻？ – Jarad

「積極的影響」不是一個有效的概念，它只適用於平凡的模型 - 更精確的線性模型。任何更復雜的事物，如果x> 10和x <20「都可以推導出規則，例如」1類「，這個概念就沒有用處，因爲」x「不是」正面「或」負面「影響。問題在於概念，而不是模型。你可以嘗試把它與P（x）聯繫起來，看看有多少概率質量落入這些區間，但是這需要根據分類規則設置不同的分類規則，這是不可行的 – lejlot

確定爲什麼要素在決策樹模型中很重要

回答

相關問題