數據字典中的R包裝

我想在R寫入數據字典功能，其中，以數據幀作爲參數，將執行以下操作：數據字典中的R包裝

1）創建一個文本文件，其中：

一個。通過按類別列出變量數量，觀察次數，完整觀察次數等總結數據框。等。

b。對於每個變量，彙總關於該變量的關鍵事實：平均值，最小值，最大值，模式，缺失觀察值的數量等。

2）創建一個包含每個數值或整數變量的直方圖和每個條形圖屬性變量。

其基本思想是創建一個數據框的數據字典與一個函數。

我的問題是：有沒有一個包已經這樣做？如果沒有，人們是否認爲這將是一個有用的功能？謝謝

來源

2011-10-08 Ross Farrelly

最好的做法是對它進行降價:)所以其餘的可以由數據分析師或數據庫所有者完成。 – Espanta

有各種各樣的封裝describe函數。我最熟悉的是Hmisc :: describe。以下是其幫助頁面的描述：

「該函數確定變量是否是字符，因子，類別，二進制，離散數字和連續數字，並根據每個變量輸出簡明統計摘要。離散如果它有< = 10個唯一值在這種情況下，分位數不會被打印如果任何非二進制變量的頻率表不超過20個唯一值，對於任何至少有20個唯一值的變量，打印5個最低和最高值。「

和輸出的一個示例：

Hmisc::describe(work2[, c("CHOLEST","HDL")]) 
work2[, c("CHOLEST", "HDL")] 

2 Variables  5325006 Observations 
---------------------------------------------------------------------------------- 
CHOLEST 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410307 914699  689 199.4  141  152  172  196  223  250 
    .95 
    268 

lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234 
---------------------------------------------------------------------------------- 
HDL 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410298 914708  258 54.2  32  36  43  52  63  75 
    .95 
    83 

lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0 
----------------------------------------------------------------------------------

此外，在您關於得到直方圖點，用於描述對象將產生在上文所說明的輸出交織直方圖Hmisc ::膠乳法。（你需要有一個LaTeX安裝來利用這個功能。）我敢肯定，你可以在Harrell的網站或亞馬遜的「Look Inside」演示文稿中找到對輸出的說明。「迴歸建模策略」。這本書有大量關於數據分析的有用資料。

來源

2011-10-08 08:36:30

感謝您的信息 - 非常有用 - 我可以將其納入我的功能 –

數據字典中的R包裝

回答

相關問題