建立客戶後分層權重的GBM分類模型

我試圖根據定性調查數據的工作產生分類模型。我們對大約10K名客戶進行了研究，並因此建立了細分模型，隨後將每個客戶分爲8個客戶羣中的1個。現在的挑戰是如何將TOTAL客戶羣分爲這些細分市場。由於只有某些客戶迴應，研究人員使用總體人口統計來應用分層後權重（或頻率權重）。建立客戶後分層權重的GBM分類模型

我的任務是現在使用我們的客戶數據作爲這個10K的解釋變量，以便爲整個基地建立一個分類模型。

爲了處理客戶的重量，我簡單地將每個客戶記錄按每個頻率重量進行了重複，數據集爆炸到大約72K。然後，我將這些數據分解成火車和測試，並使用R符號包來訓練GBM，並使用最終選擇的模型歸類爲我的保持測試集。

我得到了82％的準確性，並認爲結果太好了，以至於不真實。思考過後，我認爲問題在於模型無意中看到了測試中完全相同的記錄（有些記錄可能完全複製了10次）。

我知道，GLM模型函數允許您使用weight參數來引用權重向量，但我的問題是如何在R中使用其他機器學習算法，如GBM或Random Forest？

感謝

來源

2016-09-29 pman1971

您可以使用情況下的權重與gbm和train。一般來說，caret中可以使用案例權重的模型列表是here。

來源

2016-09-29 16:25:43 topepo

謝謝，我不相信我錯過了！我是CARET和應用預測建模書（它在我的書架上處於最佳位置）的忠實粉絲。事實上，在工作中，我會說，我提到這個套餐，並且每天至少3次向我的同事預定！ – pman1971

建立客戶後分層權重的GBM分類模型

回答

相關問題