2016-04-23 50 views
0

我想學習R,很難找到我正在尋找的東西。有大量的圖書館。如何在R中比較文本與數值中的異常值?

我有一個數據樣本數據集,包括150k名和姓以及他們的薪水。

爲了好玩,我想看看是否有任何名字或姓氏與顯着更高或更低的薪酬相關聯。

,"FirstName","LastName","BasePay" 
1,"NATHANIEL","FORD","167411.18" 
2,"GARY","JIMENEZ","155966.02" 
3,"ALBERT","PARDINI","212739.13" 

我已經嘗試使用:library("arulesViz")rules <- apriori(data)

但似乎試圖找到相關精確的工資數字,而不是薪水相對高或低。

對這個問題的任何幫助,讓我開始將非常感激!

問候,史蒂芬

+0

這個問題似乎是無關緊要的,因爲它更多的是關於統計數據,而不是一個真正具體的編程問題。也許最好在[交叉驗證](http://stats.stackexchange.com)上提出這個問題。 – Jaap

回答

0

我認爲這是一個完全合法的問題。 我會使用包dplyr。然後您可以使用'group_by'和'summarize'功能。在你的案例group_by(FirstName)中,然後選擇任何一種統計數據,即工資的均值或中位數作爲偏差的度量。

相關問題