2
我有一個熊貓數據框,其中一列包含從0到50的實際數據。它們不是均勻分佈的。給出數據分佈的Discretisize Pandas'列
我可以用得到的分佈:
hist, bins = np.histogram(df["col"])
我想什麼做的是替換爲箱數量就落在每個值
要做到這一點,這是工作:
for i in range(len(df["speed_array"])):
df["speed_array"].iloc[i] = np.searchsorted(bins, df["speed_array"].iloc[i])
但是,對於數據行數超過4百萬行的數據幀來說,它非常慢(50分鐘)。我正在尋找一種更有效的方法來解決這個問題。你們有更好的主意嗎?
雖然我夢到簡單!謝謝! – Xema
@Xema很高興知道在原來的'50分鐘'標記加速:) – Divakar
嗯,這是非常瞬間! – Xema