2016-05-16 118 views
0

我有兩個數據幀。第一:熊貓.cut和.isin功能

s = pd.Series(["(-20, -10]", "(-140, -130]", "(0, 10]"], dtype = "category") 
t = pd.Series(["(0, 50]", "(100, 150]", "(-50, 0]"], dtype = "category") 
df_loc = pd.DataFrame({'loc_x_bin': s, 'loc_y_bin': t }) 
df_loc 

[out]: 
    loc_x_bin loc_y_bin 
    (-20, -10] (0, 50] 
    (-140, -130] (100, 150] 
    (0, 10] (-50, 0] 

二:

a = pd.Series([-15, 30, 5, -135, 5, -15]) 
b = pd.Series([25, 35, -45, -200, 25, 25]) 
data = pd.DataFrame({'loc_x': a, 'loc_y': b}) 
data 

[out]: 
    loc_x  loc_y 
    -15   25 
    30   35 
    5   -45 
    -135   -200 
    5   25 
    -15   25 

我試圖找出是否loc_xloc_yloc_x_bin和同一行的loc_y_bin。看到這個職位瞭解更多詳情。 Are values in one dataframe in bins of another dataframe?。然而,我現在想弄清楚的是,爲什麼下面的輸出的第3行和第5行是'False'。

[in]: xstep = 10 
[in]: pd.cut(data.loc_x, np.arange(-500, 500, xstep)).isin(df_loc.loc_x_bin)) 
[out]: 
     0  True 
     1 False 
     2 False* 
     3  True 
     4 False* 
     5  True 

當我運行下面的代碼,在我看來是(0,10]「是」 df_loc.loc_x_bin,因爲它包括(0,10]箱。那麼,爲什麼我得到的第3和第5行以上?

False
[in]: 
print pd.cut(data.loc_x, np.arange(-500, 500, xstep)) 
print df_loc.loc_x_bin 

[out]: 
0  (-20, -10] 
1  (20, 30] 
2   (0, 10]* 
3 (-140, -130] 
4   (0, 10]* 
5  (-20, -10] 

0  (-20, -10] 
1 (-140, -130] 
2  (0, 10]* 
+0

'xstep'沒有被定義;通過猜測,它似乎是'xstep = 10' – Neapolitan

+0

沒有我定義'xstep',我只是忘了將它包含在代碼中。 – Hound

回答

0

注意,在上面的代碼中(0, 10]額外的空間:

s = pd.Series(["(-20, -10]", "(-140, -130]", "(0, 10]"], dtype = "category") 

它應該是:

s = pd.Series(["(-20, -10]", "(-140, -130]", "(0, 10]"], dtype = "category")