2015-10-15 31 views
0
MarriageLicen 

    Year Month Amount 
1 2011 Jan 742 
2 2011 Feb 796 
3 2011 Mar 1210 
4 2011 Apr 1376 


BusinessLicen 

    Month Year MARRIAGE_LICENSES 
1 Jan 2011    754 
2 Feb 2011    2706 
3 Mar 2011    2689 
4 Apr 2011    738 

我的問題是,我們如何預測城市使用許可證數量(X)發佈的結婚許可證(Y)的數量? 我們如何將兩個數據集連接在一起? 它表示您可以使用月份和年份的組合鍵加入。如何從兩個數據幀中形成線性模型?

但是我很痛苦這個問題好幾天了。

+0

在數據集「BusinessLicen」中有一列「MARRIAGE_LICENSES」是否正確? – 2015-10-15 00:51:01

回答

3

這裏有三個選項。

首先是直接。我假設你在你的例子中爲數據框交換了標籤(在BusinessLicen數據框中有一個MARRIAGE_LICENSES變量,如果我遵循你正在嘗試的去做)。

你可以用這兩個變量之間的關係進行建模:

my.model <- lm(MarriageLicen$MARRIAGE_LICENSES ~ BusinessLicen$Amount)

第二(不是很理性的)選擇是建立一個新的數據幀明確,因爲它看起來像你有一個確切的匹配每個行:

new.df <- data.frame(marriage.licenses=MarriageLicen$MARRIAGE_LICENSES, business.licenses=BusinessLicen$Amount) 
my.model <- lm(marriage.licenses ~ business.licenses, data=new.df) 

最後,如果在你的例子所示的精確對準你實際上並沒有,你可以使用merge

my.df <- merge(BusinessLicen, MarriageLicen, by=c("Month", "Year")) 
my.model <- lm(MARRIAGE_LICENCES ~ Amount, data=my.df)