背景:R中的項目級迴歸係數?
1000參與者額定自己滿意200點的對象(S),以及關於所述參與者本身提供4名不同的心理測量的變量(A,B,C,d)。有5000個獨特的對象進行評級,因此由於資源限制,並非每個參與者都評估每個對象。這導致了一個稀疏的數據集,其中每個對象被大約30個參與者評分。
從這個設計中,檢索基本的描述統計量(例如,每個對象的平均滿意度)是微不足道的。我現在的任務是建立心理測量變量(A,B,C,D)與對象之間的關係 - 即「如果你在A,B,C,D上以某種方式得分,你可能會發現滿意的對象?
這個想法是運行一個迴歸,隨後提取中介係數。式(以及可能的設計)是相當複雜的,我不知道如何即使在R.嘗試此
數據集:
的數據集如下 -
[參與者ID] ,[對象ID],[S評級],[A],[B],[C],[D]
A,B,C,D值對於一個參與者總是相同的,不要依賴於對象。對象ID取值範圍爲1〜5000,與一個參加者ID被與來自5000
實施例的池200級的對象的隨機選擇配對:
+----------------+-----------+----------+-----+------+------+------+
| Participant ID | Object ID | S Rating | A | B | C | D |
+----------------+-----------+----------+-----+------+------+------+
| 1 | 23 | 2 | 0.2 | 0.7 | 0.42 | 0.9 |
+----------------+-----------+----------+-----+------+------+------+
| 1 | 69 | 1 | 0.2 | 0.7 | 0.42 | 0.9 |
+----------------+-----------+----------+-----+------+------+------+
| 1 | 769 | 1 | 0.2 | 0.7 | 0.42 | 0.9 |
+----------------+-----------+----------+-----+------+------+------+
| 1 | 1357 | 5 | 0.2 | 0.7 | 0.42 | 0.9 |
+----------------+-----------+----------+-----+------+------+------+
| ... 196 more | | | | | | |
+----------------+-----------+----------+-----+------+------+------+
| 2 | 84 | 1 | 0.3 | 0.12 | 0.6 | 0.86 |
+----------------+-----------+----------+-----+------+------+------+
| 2 | 345 | 5 | 0.3 | 0.12 | 0.6 | 0.86 |
+----------------+-----------+----------+-----+------+------+------+
| 2 | 1357 | 4 | 0.3 | 0.12 | 0.6 | 0.86 |
+----------------+-----------+----------+-----+------+------+------+
公式:
爲了建立項目級別對象評分和參與者級別心理測量變量之間的關係,我希望用下列公式進行迴歸:
SR (A + B + C + D)* I +(1/P)
其中S評級是數據集中的S評級,ABCD是來自數據集的心理測量變量,I是項目級別係數I想要提取,而P是參與者等級係數。
該公式將爲數據集中的每個項目(對象)提供項目級係數-IA,IB,IC,ID。然後,這會回答諸如「對於對象931而言,對A的高評分在預測滿意度方面尤爲重要」。
問題:
是否有可能在R鍵實現這一目標?
我是否正確地認爲上述公式可以讓我獲得項目級別的係數,從而讓我看到心理測量變量A,B,C,D如何有助於預測S,獨立於每個項目I?
是否有可能從R迴歸中檢索這些係數?我希望最終得到一個表格,例如:[對象ID],[A的貢獻],[B的貢獻],[C的貢獻],[D的貢獻]。這將告訴每個心理測量變量對每個對象單獨預測S的貢獻。
在R中如何去做這件事?
謝謝你的快速答覆。 該解決方案效果很好。關鍵是正確設置因素。我現在只是在努力處理數據集的大小(需要36GB內存),我讀過的內容可以使用biglm軟件包來克服,而不是使用lm本身。 – Tomas2015