我有一個包含數百列的數據集。它包含郵件列表數據,而且幾列似乎是相互重疊的,但形式不同。查找完全相關/冗餘的數字和字符列
例如:
rowNum StateCode StateName StateAbbreviation
1 01 UTAH UT
2 01 UTAH UT
3 03 TEXAS TX
4 03 TEXAS TX
5 03 TEXAS TX
6 44 OHIO OH
7 44 OHIO OH
8 44 OHIO OH
... ... ... ...
我想去掉重疊數據,並只保留數字列如果可能的話那麼只有一列包含相同的信息。因此,上面的例子將成爲:
rowNum StateCode
1 01
2 01
3 03
4 03
5 03
6 44
7 44
8 44
... ...
我一直在使用cor()
但數值變量這隻能嘗試。我試過caret::nearZeroVar()
但這隻適用於列本身。
有沒有人有任何建議找到完全相關的列涉及非數字數據?
謝謝。
剛剛編輯我的答案,以簡化其方法。它現在使用'cor()',我當然應該從你的問題中找到開始。感謝這個很酷的問題。 –
@ JoshO'Brien:效果很好。非常感謝你。 – screechOwl