的Python - 分類

我想從一個連續變量改變我的特徵「年齡」，年齡範圍爲二元分類的分類變量，像這樣的最小方差的塊大小：的Python - 分類

df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])

不過我想要以最佳方式分割它，以便可以最有效地分類數據。即年齡範圍內班級的差異最小化，而不是過度擬合。

是否有一個軟件包有一個方法，可以最小化這種分割數據時的方差，還是我必須自己編寫一個方法？

也許你可以使用sklearn.cluster來做到這一點。

2017-07-02 16:08:08 xiaoyi

回答