我有一個龐大的數據集有六列(稱之爲A,B,C,D,E,F),大約有450,000行。我只是試圖找到列A
和B
之間的相關性:如何計算R中龐大數據集中兩個變量的相關性?
cor(A, B)
和我
[1] NA
作爲結果。我能做些什麼來解決這個問題?
我有一個龐大的數據集有六列(稱之爲A,B,C,D,E,F),大約有450,000行。我只是試圖找到列A
和B
之間的相關性:如何計算R中龐大數據集中兩個變量的相關性?
cor(A, B)
和我
[1] NA
作爲結果。我能做些什麼來解決這個問題?
嘗試。在你的觀察中,這將忽略新生。
爲了保持統計上的嚴謹性,您還應該查看數據中缺失的條目數量,並查看隨機假設是否存在。
編輯1:看看?cor
以查看use
參數的其他選項。
您可能會考慮在Hmisc軟件包中使用rcorr函數。
它速度很快,只包含兩兩完整的觀測值。返回的對象包含一個矩陣
的p值的