2013-12-20 118 views
2

我正在尋找一種監督機器學習算法,該算法將生成透明的規則或可以被人類輕鬆解釋的定義。人類可解釋的監督機器學習算法

我使用的大多數算法(SVM,隨機森林,PLS-DA)都不是很透明。也就是說,在針對非計算機科學家的讀者的出版物中,你很難總結出表格中的模型。例如,作者通常會做的是發佈基於某些標準的重要變量列表(例如,基尼指數或RF情況下的準確度平均降低),並且有時通過指示這些變量的差異來改進此列表問題之間的類。

我在看的是樣式「if(任何變量V1-V10>中位數或任何變量V11-V20 <第一四分位數)和變量V21-V30>第三四分位數的相對簡單的輸出,則A級「。

有沒有這樣的事情?

只是爲了約束我的問題:我正在處理高度多維的數據集(成千上萬到數十萬個常見的共線變量)。所以例如迴歸樹不是一個好主意(我認爲)。

+2

你是指像一個簡單的[決策樹](http://en.wikipedia.org/wiki/Decision_tree_learning)? –

+0

您是否希望判決*邊界*可解釋,或者每個*單個決定*是否可解釋都足夠了?例如,對於k個最近鄰居,決策邊界可能非常複雜,但是通過顯示最近的k個鄰居(這很容易理解),您可以向每個用戶解釋每個決定。 – Niki

+0

@RogerRowland好吧,我缺乏計算機科學的基礎知識,但是,就是這樣的。除了它應該用於高度多維數據集和序數而不是連續變量。 – January

回答

2

你聽起來像你在描述決策樹。爲什麼迴歸樹不是一個好選擇?也許不是最佳的,但他們工作,那些是最直接可解釋的模型。任何對連續值有效的東西都可以用於序數值。

想要一個準確的分類器,並想要一個簡單和可解釋的模型之間存在着張力。你可以建立一個隨機決策林模型,並在幾個方面限制它,使它更解釋:

  • 小最大深度
  • 較高的最低信息獲取
  • 修剪樹
  • 次列車上「理解」功能
  • 量化/圓的決定threhsolds

該模型將不會那麼好,一定。