這是特徵工程的一部分,它根據名爲Col的列彙總每個ID。相同的預處理將應用於測試集。由於數據集很大,基於data.table的解決方案可能更受歡迎。如何快速獲取data.table中的計數摘要。
訓練輸入:
ID Col
A M
A M
A M
B K
B M
預期輸出上述訓練輸入:
ID Col_M Col_K
A 3 0 # A has 3 M in Col and 0 K in Col
B 1 1
以上是用於處理的訓練數據。對於測試數據集,如果需要通過Col_M,Col_K進行映射,也就是說,如果其他值如S出現在Col中,則會被忽略。
測試輸入:
ID Col
C M
C S
預期輸出對於上述的測試輸入:
ID Col_M Col_K
C 1 0 # A has 1 M in Col and 0 K in Col. S value is ignored
你能添加一些段落解釋什麼顯示?虛擬代碼可以幫助創建良好的答案:) – pachamaltese
如果你實際上安裝了R,並且data.table包也是如此,那麼這裏有:https://stackoverflow.com/q/18881073/只需定義你自己的'inds'值。 – Frank
@pachamaltese,是的,剛剛添加。 – HappyCoding