0
我有以下形式的數據幀:結合熊貓GROUP_BY和sklearn countVectorizer
ID col1 col2 col3 class
1 0.35 "A" "x" 'class1'
1 0.35 "B" "y" 'class1'
1 0.35 "A" "x" 'class1'
1 0.35 "A" "z" 'class1'
2 0.48 "B" "u" 'class2'
2 0.48 "A" "x" 'class2'
3 0.14 "C" "v" 'class3'
其中COL2和COL3的尺寸(總共以上7000)非常高。我必須對ID字段進行分類。所以在我的理解中,我需要對數據進行分組。如果我使用熊貓group_by並使用密集格式,則內存爆炸。所以我想知道將數據提供給分類器的最佳方式是什麼?無論如何,我可以根據col2和col3的計數對數據進行分組,同時保持col1的狀態並將輸出保存在稀疏矩陣中?
非常感謝您的回覆,這非常有幫助。無論如何,我可以將數字列(列1)也納入特徵中嗎? –
我搜索了一下,並從scipy.sparse hstack做了伎倆。再次感謝您的幫助。 –