我有一個處理來自英國實踐的數據的數據框。 原始數據爲http://datagov.ic.nhs.uk/T201207.exe。我已經將它提交到PCT級別的數據框架中,由PCT和最常見的處方(「項目」欄中的降序)排序。通過另一列中的因子提取列中的前50位
pct sha chem.code items nic act.cost
32360 5ZW Q39 0212000Y0 12421 17811.40 16888.21
28769 5ZW Q39 0209000A0 8741 7834.43 7554.72
4439 5ZW Q39 0103050P0 7733 21566.51 20210.05
...
82763 5D7 Q30 0603020L0 1 1.08 1.13
152673 5D7 Q30 1502010C0 1 0.92 0.85
5149 5D7 Q30 0104020N0 1 0.70 0.68
149501 5D7 Q30 1311060I0 1 0.50 0.49
有151 pct的和每個有超過1000項。我想提取每個pct的前50項。我知道我可以寫一個for
循環,只是遍歷pct的級別,但這不是R
。我還沒有想出如何使用apply
或sapply
來完成關卡上的子集。這似乎更好地獲取整列而不是獲取行的子集。
鏈接是一個可執行文件,而不是您的數據。 – Arun 2013-02-24 14:04:46
[檢查出來](http://stackoverflow.com/questions/14800161/how-to-find-the-top-n-values-by-group-or-within-category-groupwise-in-an-r -dat):) – 2013-02-24 14:10:37
@Arun可執行文件是一個'self-expanding zip',它包含2個csv文件,它們是數據。感謝NHS。 – Suz 2013-02-24 14:56:27