我目前正在一個項目中,我有一個龐大的數據框,16196 obs的25個變量。目標是消除可能出現在每種特定治療的數據框中的任何異常值。問題是具有治療的柱子在那裏有每種治療,並且每種治療具有不同的持續時間。讓我給你看一個例子。通過匹配相似的行解構R中的列?
val_lvl2:字符 「頸椎椎間融合(脊柱融合)」, 「非手術治療」, 「非手術治療」, 「非手術治療」 ...
prd_num_of_days_num:NUM 167 46 46 46 167 46 46 46 167 46 ...
輸出來自STR(z_combined_cost_dtrmnt)
我們可以看到val_lvl2擁有所有的治療(100+未顯示)。而prd_num_of_days_num具有該特定治療的長度。現在我想要做的就是將所有的「頸椎融合」數據和「非手術治療」數據合併到一起,然後將它們放入自己的小數據框中。之後,我想對治療的長度創建95%的置信度,然後刪除任何不屬於該CI的數據行。然後帶回數據框,以便我們再次有一個大數據框,但每種處理中的異常數據都沒有了。
我將不勝感激任何幫助,因爲我真的不知道從哪裏開始,因爲看起來沒有簡單的方法按照我想要的方式來分解數據幀。
目前正在考慮使用聚合函數。
AGG < - 骨料(z_combined_cost_dtrmnt $ prd_num_of_days_num,通過=名單(val_lvl2 = z_combined_cost_dtrmnt $ val_lvl2),由=名單(val_lvl3 = z_combined_cost_dtrmnt $ val_lvl3),FUN = SD)
但是它給出了這個錯誤:錯誤在aggregate.data.frame(as.data.frame(X),...):正式的說法 「由」 由多個實際參數
TL/DR
大數據幀匹配 - >
小型數據框es基於val_lvl2中的唯一值記住存在類似的唯一值,即多個「Cervical Fusion」實例應該位於相同的小數據框中 - >
基於prd_num_of_days_num(長度)創建95%CI處理)的每個小數據幀的 - >
卸下整行的每個唯一值,如果是prd_num_of_days_num CI之外 - >
再次與沒有異常值小的數據幀合併爲一個大的數據幀。
歡迎組織數據R.到StackOverflow的把握。請提供[MCVE] –
嘿@StevenBeaupré!我目前的想法是可能嘗試聚合。這是迄今爲止我所擁有的。 AGG < - 骨料(z_combined_cost_dtrmnt $ prd_num_of_days_num,通過=列表(val_lvl2 = z_combined_cost_dtrmnt $ val_lvl2),由=列表(val_lvl3 = z_combined_cost_dtrmnt $ val_lvl3),FUN = SD) 然而,讓此錯誤:在聚合 錯誤.data.frame(as.data.frame(x),...): 形式參數「by」由多個實際參數匹配 – nazgulian