pandas cut()
documentation指出:「在結果分類對象中超出邊界值將是NA」。當上限不一定明確或重要時,這會造成困難。例如:用無限上/下限切割的熊貓
cut (weight, bins=[10,50,100,200])
會產生箱:
[(10, 50] < (50, 100] < (100, 200]]
所以cut (250, bins=[10,50,100,200])
會產生NaN
,如將cut (5, bins=[10,50,100,200])
。我想要做的是爲第一個例子生成類似> 200
的東西,而爲第二個例子生成類似< 10
的東西。
我意識到我可以做cut (weight, bins=[float("inf"),10,50,100,200,float("inf")])
或等效,但是我所遵循的報告風格不允許像(200, inf]
這樣的東西。我也意識到,我實際上可以通過cut()
上的labels
參數指定自定義標籤,但這意味着記得在每次調整bins
時調整它們,這可能是經常發生的。
我是否用盡了所有可能性,或者cut()
或pandas
的其他地方有什麼可以幫助我做到這一點?我正在考慮爲cut()
編寫一個包裝函數,它會自動生成所需格式的標籤,但我想首先在這裏查看。
您是否在問如何設置垃圾桶邊界,或者如何將其標記爲「200+」?你可以將上邊界設置爲'the_data.max()+ 1',但是我認爲如果你需要特定的格式,你必須手動設置標籤。 – BrenBarn
是的,我開始認爲這是唯一的方法。 –