2016-09-29 34 views
0

我試圖根據定性調查數據的工作產生分類模型。我們對大約10K名客戶進行了研究,並因此建立了細分模型,隨後將每個客戶分爲8個客戶羣中的1個。現在的挑戰是如何將TOTAL客戶羣分爲這些細分市場。由於只有某些客戶迴應,研究人員使用總體人口統計來應用分層後權重(或頻率權重)。建立客戶後分層權重的GBM分類模型

我的任務是現在使用我們的客戶數據作爲這個10K的解釋變量,以便爲整個基地建立一個分類模型。

爲了處理客戶的重量,我簡單地將每個客戶記錄按每個頻率重量進行了重複,數據集爆炸到大約72K。然後,我將這些數據分解成火車和測試,並使用R符號包來訓練GBM,並使用最終選擇的模型歸類爲我的保持測試集。

我得到了82%的準確性,並認爲結果太好了,以至於不真實。思考過後,我認爲問題在於模型無意中看到了測試中完全相同的記錄(有些記錄可能完全複製了10次)。

我知道,GLM模型函數允許您使用weight參數來引用權重向量,但我的問題是如何在R中使用其他機器學習算法,如GBM或Random Forest?

感謝

回答

0

您可以使用情況下的權重與gbmtrain。一般來說,caret中可以使用案例權重的模型列表是here

+0

謝謝,我不相信我錯過了!我是CARET和應用預測建模書(它在我的書架上處於最佳位置)的忠實粉絲。事實上,在工作中,我會說,我提到這個套餐,並且每天至少3次向我的同事預定! – pman1971