熊貓dataframe選擇性數據清理帖子組

2017-07-25 26 views 4 likes

我是熊貓新手，我想知道如何通過只提取部分行來清理數據。說我有一個數據幀如下：熊貓dataframe選擇性數據清理帖子組

column1  date key 
A   2016 SB 
A   2017 B 
B   2015 SB 
C   2014 SB 
C   2014 PB 
C   2015 B 
C   2016 SB

如何清潔的數據，使得對於每個相同的列1值的，我只提取前兩行值，而忽略其餘的（例如在C值，只有2014 SB和2014 PB是我得到的）？

column1  date key 
A   2016 SB 
A   2017 B 
B   2015 SB 
C   2014 SB 
C   2014 PB

謝謝

來源

2017-07-25 hellochan

回答

你需要GroupBy.head，也docs檢查：

df = df.groupby('column1').head(2) 
print (df) 
    column1 date key 
0  A 2016 SB 
1  A 2017 B 
2  B 2015 SB 
3  C 2014 SB 
4  C 2014 PB

來源

2017-07-25 14:00:10 jezrael

很難頂這一個...;） – MaxU

In [82]: df.loc[df.groupby('column1').cumcount().lt(2)] 
Out[82]: 
    column1 date key 
0  A 2016 SB 
1  A 2017 B 
2  B 2015 SB 
3  C 2014 SB 
4  C 2014 PB

來源

2017-07-25 14:04:28 MaxU

出於無奈用多麼真實@ MaxU的語句......我想出了這個荒謬的解。

df.groupby('column1').head(2) 
很難超越這次的...） - MaxU

df.drop_duplicates('column1').append(
    df[df.duplicated('column1')].drop_duplicates('column1') 
) 

    column1 date key 
0  A 2016 SB 
2  B 2015 SB 
3  C 2014 SB 
1  A 2017 B 
4  C 2014 PB

來源

2017-07-25 14:12:06 piRSquared

有趣的解決方案！ :) – MaxU

相關問題

11. 熊貓數據框 - 選擇行並清除內存？
12. 熊貓dataframe groupby函數
13. 從任意數量條件的熊貓DataFrame中選擇行
14. 熊貓Dataframe - RemoteDataError - Python
15. Pickle dump熊貓DataFrame
16. 重建熊貓DataFrame
17. 熊貓DataFrame應用
18. scipy pdist（）熊貓DataFrame
19. 熊貓DataFrame reset_index列？
20. 熊貓DataFrame格式
21. 熊貓選擇q分位數據
22. 選擇的熊貓數據幀
23. 熊貓數據框中選擇
24. 選擇日從熊貓數據框中
25. 使用熊貓進行數據選擇
26. 選擇列數據與熊貓
27. 選擇熊貓數據框列
28. 在numpy數組或熊貓中反向偶數據行DataFrame
29. 熊貓按數組中的元素選擇數據框
30. 獲取子集熊貓的長度DataFrame