我想在R寫入數據字典功能,其中,以數據幀作爲參數,將執行以下操作:數據字典中的R包裝
1)創建一個文本文件,其中:
一個。通過按類別列出變量數量,觀察次數,完整觀察次數等總結數據框。等。
b。對於每個變量,彙總關於該變量的關鍵事實:平均值,最小值,最大值,模式,缺失觀察值的數量等。
2)創建一個包含每個數值或整數變量的直方圖和每個條形圖屬性變量。
其基本思想是創建一個數據框的數據字典與一個函數。
我的問題是:有沒有一個包已經這樣做?如果沒有,人們是否認爲這將是一個有用的功能? 謝謝
我想在R寫入數據字典功能,其中,以數據幀作爲參數,將執行以下操作:數據字典中的R包裝
1)創建一個文本文件,其中:
一個。通過按類別列出變量數量,觀察次數,完整觀察次數等總結數據框。等。
b。對於每個變量,彙總關於該變量的關鍵事實:平均值,最小值,最大值,模式,缺失觀察值的數量等。
2)創建一個包含每個數值或整數變量的直方圖和每個條形圖屬性變量。
其基本思想是創建一個數據框的數據字典與一個函數。
我的問題是:有沒有一個包已經這樣做?如果沒有,人們是否認爲這將是一個有用的功能? 謝謝
有各種各樣的封裝describe
函數。我最熟悉的是Hmisc :: describe。以下是其幫助頁面的描述:
「該函數確定變量是否是字符,因子,類別,二進制,離散數字和連續數字,並根據每個變量輸出簡明統計摘要。離散如果它有< = 10個唯一值在這種情況下,分位數不會被打印如果任何非二進制變量的頻率表不超過20個唯一值,對於任何至少有20個唯一值的變量,打印5個最低和最高值。「
和輸出的一個示例:
Hmisc::describe(work2[, c("CHOLEST","HDL")])
work2[, c("CHOLEST", "HDL")]
2 Variables 5325006 Observations
----------------------------------------------------------------------------------
CHOLEST
n missing unique Mean .05 .10 .25 .50 .75 .90
4410307 914699 689 199.4 141 152 172 196 223 250
.95
268
lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234
----------------------------------------------------------------------------------
HDL
n missing unique Mean .05 .10 .25 .50 .75 .90
4410298 914708 258 54.2 32 36 43 52 63 75
.95
83
lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0
----------------------------------------------------------------------------------
此外,在您關於得到直方圖點,用於描述對象將產生在上文所說明的輸出交織直方圖Hmisc ::膠乳法。 (你需要有一個LaTeX安裝來利用這個功能。)我敢肯定,你可以在Harrell的網站或亞馬遜的「Look Inside」演示文稿中找到對輸出的說明。「迴歸建模策略」。這本書有大量關於數據分析的有用資料。
感謝您的信息 - 非常有用 - 我可以將其納入我的功能 –
最好的做法是對它進行降價:)所以其餘的可以由數據分析師或數據庫所有者完成。 – Espanta