2015-03-19 37 views
0

我在獲取數據集的相關係數時遇到困難。我開始使用ggpairs,然後cor功能。R得到相關係數的問題

這可能聽起來缺乏知識,但我沒有意識到我無法計算不是數字類型的列的相關性。例如,我想現在一些AGE和CITY之間的關聯。我還有什麼替代辦法可以解決這種情況?或者我應該做什麼數據轉換?

謝謝。

+0

您不能將城市與年齡相關作爲數值比較,您可以查看每個城市內年齡的分佈情況,作爲識別差異的一種手段。也許從boxlot開始吧。 – thelatemail 2015-03-19 00:38:28

+1

學習統計數據時,請注意處理數字和分類數據的方法之間的差異。你問的數據究竟是什麼? – PeterK 2015-03-19 00:56:09

回答

0

關於城市等定性數據,您可以使用斯皮爾曼的相關性。

,可以找到有關這種相關性here

它可以在R上簡單地用於在此命令中的幫助信息

COR(X,使用=,方法=)

所以,如果你想在一個簡單的例子來使用它:

COR(年齡,市,方法= 「斯皮爾曼」)

我希望幫助你

+0

儘管這會給你一個答案,但它並不清楚它的含義。 – PeterK 2015-03-19 01:02:53

+0

我不得不同意PeterK。在這種情況下,我會迴歸一個更好的回答。 – 2015-03-19 20:52:54

+0

謝謝你的評論,迴歸將是一個更完整的方法。但是,他可以添加其他自變量來獲得更多相關的係數變量。 – MarceloP 2015-03-20 08:43:28

2

由於thelatemail所說的那樣,有時候圖表說話比統計更多...

cities <- c("Montreal", "Toronto", "New York", "Plattsburgh") 
dat <- data.frame(city = sample(cities,size = 200, replace = TRUE), age = rnorm(n = 200, mean = 40, sd = 20)) 
dat$city <- as.factor(dat$city) 
plot(age ~ city, data = dat) 

然後進行適當的分析,你有幾種選擇...方差分析,或城市迴歸作爲一個解釋變量(因子)...雖然你的問題可能會有更好的答覆交叉驗證!

順便說一句:只是忽略消極的年齡,這已經很快完成了。

enter image description here

+0

我是否已經回覆了艾琳,我必須更加耐心,並通過其他方式探索可能性,並且密謀將會成爲我的一部分。謝謝。 – 2015-03-19 20:51:00

2

我覺得你首先需要回答什麼是你正在嘗試做的問題。相關係數(Pearson's r)是一個特定的統計量,可以用兩個數值(其中一個二分變量可以被認爲是數字)來計算。它具有一些特殊的特徵,包括它受-1和1限制,並且它沒有依賴或自變量的概念。它也不代表解釋變異的比例;你需要將其平方以得到通常的測量。它所做的是給你估計兩個變量之間關聯的大小和方向。

這些特徵使得當你有一個像城市這樣的變量作爲兩個變量之一時使用r是不合適的。如果你想知道按城市解釋年齡方差的比例,你可以對城市的一組虛擬變量進行年齡迴歸,並查看模型的整體R平方。然而,與r不同,你不會有一個簡單的方向(只是每個城市的方向),它不一定像你建立一個基於年齡的城市預測模型一樣。

+0

謝謝你的回答。我現在更清楚我的方法。我現在可以看到,爲什麼我不應該在這種情況下使用皮爾遜或其他人。爲此我感謝你的解釋。 我正試圖找到一個「快捷方式」來查找我的數據集中最相關的變量。我必須更加耐心,並通過其他方式探索可能性。 – 2015-03-19 20:48:02