我試圖根據定性調查數據的工作產生分類模型。我們對大約10K名客戶進行了研究,並因此建立了細分模型,隨後將每個客戶分爲8個客戶羣中的1個。現在的挑戰是如何將TOTAL客戶羣分爲這些細分市場。由於只有某些客戶迴應,研究人員使用總體人口統計來應用分層後權重(或頻率權重)。建立客戶後分層權重的GBM分類模型
我的任務是現在使用我們的客戶數據作爲這個10K的解釋變量,以便爲整個基地建立一個分類模型。
爲了處理客戶的重量,我簡單地將每個客戶記錄按每個頻率重量進行了重複,數據集爆炸到大約72K。然後,我將這些數據分解成火車和測試,並使用R符號包來訓練GBM,並使用最終選擇的模型歸類爲我的保持測試集。
我得到了82%的準確性,並認爲結果太好了,以至於不真實。思考過後,我認爲問題在於模型無意中看到了測試中完全相同的記錄(有些記錄可能完全複製了10次)。
我知道,GLM模型函數允許您使用weight參數來引用權重向量,但我的問題是如何在R中使用其他機器學習算法,如GBM或Random Forest?
感謝
謝謝,我不相信我錯過了!我是CARET和應用預測建模書(它在我的書架上處於最佳位置)的忠實粉絲。事實上,在工作中,我會說,我提到這個套餐,並且每天至少3次向我的同事預定! – pman1971