如何選擇包含大於閾值的值的所有行？

請求很簡單：我想選擇包含大於閾值的值的所有行。如何選擇包含大於閾值的值的所有行？

如果我不喜歡這樣寫道：

df[(df > threshold)]

我得到這些行，但低於的閾值只是NaN。我如何避免選擇這些行？

來源

2017-03-05 displayname

其實完全沒有必要的雙換位 - 你可以簡單地調用any沿着你的布爾矩陣列索引（供應1或'columns'）。

df[(df > threshold).any(1)]

例

>>> df = pd.DataFrame(np.random.randint(0, 100, 50).reshape(5, 10)) 

>>> df 

    0 1 2 3 4 5 6 7 8 9 
0 45 53 89 63 62 96 29 56 42 6 
1 0 74 41 97 45 46 38 39 0 49 
2 37 2 55 68 16 14 93 14 71 84 
3 67 45 79 75 27 94 46 43 7 40 
4 61 65 73 60 67 83 32 77 33 96 

>>> df[(df > 95).any(1)] 

    0 1 2 3 4 5 6 7 8 9 
0 45 53 89 63 62 96 29 56 42 6 
1 0 74 41 97 45 46 38 39 0 49 
4 61 65 73 60 67 83 32 77 33 96

換位爲你的自我的回答也僅僅是不必要的性能影響。

df = pd.DataFrame(np.random.randint(0, 100, 10**8).reshape(10**4, 10**4)) 

# standard way 
%timeit df[(df > 95).any(1)] 
1 loop, best of 3: 8.48 s per loop 

# transposing 
%timeit df[df.T[(df.T > 95)].any()] 
1 loop, best of 3: 13 s per loop

來源

2017-03-05 20:29:23 miradulo

超好的答案。 – jezrael

謝謝！當然這簡單得多！ – displayname

這其實很簡單：

df[df.T[(df.T > 0.33)].any()]

來源

2017-03-05 20:24:00 displayname

如何選擇包含大於閾值的值的所有行？

回答

相關問題