2011-10-08 58 views
7

我想在R寫入數據字典功能,其中,以數據幀作爲參數,將執行以下操作:數據字典中的R包裝

1)創建一個文本文件,其中:

一個。通過按類別列出變量數量,觀察次數,完整觀察次數等總結數據框。等。

b。對於每個變量,彙總關於該變量的關鍵事實:平均值,最小值,最大值,模式,缺失觀察值的數量等。

2)創建一個包含每個數值或整數變量的直方圖和每個條形圖屬性變量。

其基本思想是創建一個數據框的數據字典與一個函數。

我的問題是:有沒有一個包已經這樣做?如果沒有,人們是否認爲這將是一個有用的功能? 謝謝

+0

最好的做法是對它進行降價:)所以其餘的可以由數據分析師或數據庫所有者完成。 – Espanta

回答

6

有各種各樣的封裝describe函數。我最熟悉的是Hmisc :: describe。以下是其幫助頁面的描述:

「該函數確定變量是否是字符,因子,類別,二進制,離散數字和連續數字,並根據每個變量輸出簡明統計摘要。離散如果它有< = 10個唯一值在這種情況下,分位數不會被打印如果任何非二進制變量的頻率表不超過20個唯一值,對於任何至少有20個唯一值的變量,打印5個最低和最高值。「

和輸出的一個示例:

Hmisc::describe(work2[, c("CHOLEST","HDL")]) 
work2[, c("CHOLEST", "HDL")] 

2 Variables  5325006 Observations 
---------------------------------------------------------------------------------- 
CHOLEST 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410307 914699  689 199.4  141  152  172  196  223  250 
    .95 
    268 

lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234 
---------------------------------------------------------------------------------- 
HDL 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410298 914708  258 54.2  32  36  43  52  63  75 
    .95 
    83 

lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0 
---------------------------------------------------------------------------------- 

此外,在您關於得到直方圖點,用於描述對象將產生在上文所說明的輸出交織直方圖Hmisc ::膠乳法。 (你需要有一個LaTeX安裝來利用這個功能。)我敢肯定,你可以在Harrell的網站或亞馬遜的「Look Inside」演示文稿中找到對輸出的說明。「迴歸建模策略」。這本書有大量關於數據分析的有用資料。

+0

感謝您的信息 - 非常有用 - 我可以將其納入我的功能 –