2017-06-30 25 views
1

我想從一個連續變量改變我的特徵「年齡」,年齡範圍爲二元分類的分類變量,像這樣的最小方差的塊大小:的Python - 分類

df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90']) 

不過我想要以最佳方式分割它,以便可以最有效地分類數據。即年齡範圍內班級的差異最小化,而不是過度擬合。

是否有一個軟件包有一個方法,可以最小化這種分割數據時的方差,還是我必須自己編寫一個方法?

回答

0

也許你可以使用sklearn.cluster來做到這一點。