1
我想從一個連續變量改變我的特徵「年齡」,年齡範圍爲二元分類的分類變量,像這樣的最小方差的塊大小:的Python - 分類
df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])
不過我想要以最佳方式分割它,以便可以最有效地分類數據。即年齡範圍內班級的差異最小化,而不是過度擬合。
是否有一個軟件包有一個方法,可以最小化這種分割數據時的方差,還是我必須自己編寫一個方法?