2017-07-28 52 views
-1

考慮在數據集上訓練的參數二進制分類器(例如邏輯迴歸,支持向量機等)(例如包含兩個特徵,例如血壓和膽固醇水平)。 該數據集被丟棄,訓練後的模型只能用作黑匣子(可以從訓練的模型中收集調整和內部信息)。只能提供一組數據點並預測它們的標籤。機器學習模型是否可以提供關於數據的平均值和標準差的信息?

是否有可能獲得關於此模型所訓練的數據集的特徵的平均值和/或標準差和/或範圍的信息?如果是,那又如何?如果不是,那我們爲什麼不能呢?

謝謝您的迴應! :)

+0

這個問題不是關於編程,而是應該在http://stats.stackexchange.com/ – Sentry

回答

0

支持向量機並不提供有關數據統計的任何信息,它是最大的邊緣分類器,它在特徵空間中的兩個數據集之間找到最佳分離超平面,作爲「支持向量」的線性組合。如果使用內核函數,那麼這個組合就在內核空間中,它甚至不在原始的特徵空間中。 SVM沒有任何直接的概率解釋。

Logistic迴歸是一個判別分類器,它模擬條件概率p(y | x,w),其中y是你的標籤,x是你的數據,w是特徵。經過最大似然訓練後,您將剩下w並且它又是特徵空間中的一個鑑別器(超平面),所以您不再具有這些特徵。

可以考慮以下幾點。使用高斯分類器。假設你的班級是由先前的班級概率p(y)產生的。然後,一個類的條件密度p(x | y,w)產生你的數據。然後通過貝葉斯規則,你將有:p(y | x,w)=(p(y)p(x | y,w))/ p(x)。如果將類條件密度p(x | y,w)定義爲高斯,則其參數集w將由x的平均向量m和協方差矩陣C組成,假設它是由y類生成的。但請記住,這隻會基於當前數據向量屬於特定類的假設而起作用。在w上條件化,更好的選擇將是均值向量:E [x | w]。這是關於p(x | w)的x的期望。它歸結爲類y = 0和y = 1的平均向量相對於它們的先前概率的加權平均值。同樣應該爲協方差而工作,但它需要得到適當的,我現在不是百分之百肯定。

+0

處詢問。謝謝,我會嘗試考慮貝葉斯規則和高斯分佈,以便了解如何解決這個問題。 :) –

相關問題