我正在使用pd.cut
來離散數據集。一切都很好。但是,我的問題與Categorical
對象類型有關,它是由pd.cut
返回的數據類型。該文檔說,Categorical
對象被視爲一個字符串數組,所以我不驚訝地看到標籤在分組時被詞法排序。排序熊貓分組後的分類標籤
例如,下列代碼:
產生下列圖表:
(中間通知500-599)
之前分組,結構是我期望的順序:
In [94]: df['value_group']
Out [94]:
59 0 - 499
58 0 - 499
0 500 - 999
94 500 - 999
76 500 - 999
95 1000 - 1499
17 1000 - 1499
48 1000 - 1499
我已經玩了一段時間了,唯一能避免這種情況的方法就是在標籤前加一個前導字母字符,例如: ['A) 0 - 499', 'B) 500-999', ... ]
這讓我畏縮。我研究的其他事情是提供一個自定義的groupby實現,這似乎不可能(或者正確的事情)。我錯過了什麼?
請看看在大熊貓以下PR:這是目前在大熊貓製作:https://github.com/pydata /熊貓/拉/ 7217。這種操作應該與該公關一起工作(如果不是這是一個bug ...) –