如何在R中比較文本與數值中的異常值？

我想學習R，很難找到我正在尋找的東西。有大量的圖書館。如何在R中比較文本與數值中的異常值？

我有一個數據樣本數據集，包括150k名和姓以及他們的薪水。

爲了好玩，我想看看是否有任何名字或姓氏與顯着更高或更低的薪酬相關聯。

,"FirstName","LastName","BasePay" 
1,"NATHANIEL","FORD","167411.18" 
2,"GARY","JIMENEZ","155966.02" 
3,"ALBERT","PARDINI","212739.13"

我已經嘗試使用：library("arulesViz")和rules <- apriori(data)

但似乎試圖找到相關精確的工資數字，而不是薪水相對高或低。

對這個問題的任何幫助，讓我開始將非常感激！

問候，史蒂芬

這個問題似乎是無關緊要的，因爲它更多的是關於統計數據，而不是一個真正具體的編程問題。也許最好在[交叉驗證]（http://stats.stackexchange.com）上提出這個問題。 – Jaap

我認爲這是一個完全合法的問題。我會使用包dplyr。然後您可以使用'group_by'和'summarize'功能。在你的案例group_by（FirstName）中，然後選擇任何一種統計數據，即工資的均值或中位數作爲偏差的度量。

2016-04-23 21:37:44 biomiha

回答