-4
我有兩個數據集,我想看看它們之間是否存在關係。確定數據是否與R有關
第一個數據集包含用於健康活動的廣告費用,而第二個數據集包含同一時間段內的傷亡人數。我想看看花更多的錢意味着更少的傷亡。比較兩者的最佳方法是什麼?
關於數據集,都包含日期和值。
我有兩個數據集,我想看看它們之間是否存在關係。確定數據是否與R有關
第一個數據集包含用於健康活動的廣告費用,而第二個數據集包含同一時間段內的傷亡人數。我想看看花更多的錢意味着更少的傷亡。比較兩者的最佳方法是什麼?
關於數據集,都包含日期和值。
讓我們假設你想,當你得到你的數據是從字面上看它做
set.seed(44)
deaths<- 10:1 + sample.int(3, 10, replace = T)
和
spent<- seq(100, 550, by = 50)
的第一件事。這可以比較怕疼與
plot(spent, deaths)
這將產生
所以看起來我們越花來完成,少死亡有。這就說得通了。但是,我們如何量化這種說法。使用cor()
將給我們兩個變量spent
和deaths
之間的相關性。
cor(spent, deaths)
# [1] -0.9809581
所以看起來他們是非常強的(負相關)。另外一個簡單的方法(即密切相關cor()
)爲適應線性模型。
model<- lm(deaths~spent)
的summary()
調用產生了很多關於你剛纔擬合模型,解釋這是超出了本文的範圍有用的信息,但可以用一些快速谷歌搜索很容易找到。
summary(model)
#Call:
#lm(formula = deaths ~ spent)
#Residuals:
# Min 1Q Median 3Q Max
#-0.89697 -0.51515 -0.05758 0.46364 1.01818
#Coefficients:
# Estimate Std. Error t value Pr(>|t|)
#(Intercept) 14.151515 0.539649 26.22 4.80e-09 ***
#spent -0.021697 0.001519 -14.29 5.62e-07 ***
#---
#Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#Residual standard error: 0.6898 on 8 degrees of freedom
#Multiple R-squared: 0.9623, Adjusted R-squared: 0.9576
#F-statistic: 204.1 on 1 and 8 DF, p-value: 5.622e-07
你已經試過了什麼?你不能用教科書,谷歌和上面的搜索欄自己弄清楚什麼? – Steven
只需輸入您的傷亡數據[與Google關聯](https://www.google.com/trends/correlate#),您就可以看到各種與傷亡相關的變量。 – Gregor