2015-02-09 25 views
1

在討論如何在R中組織工作流和項目時,經常建議package be written與&共享工作。我想知道:是否有使用R包發佈&的任何優先級都可以通過CRAN或其他插座公開獲得數據(以及相關資料,例如元數據,自定義數據處理工具等)?我使用需要多個清潔階段的數據,例如基本清除拼寫錯誤,基本記錄匹配&自定義插補缺失數據,然後針對特定分析進行各種形式的整形&聚合。 R包似乎是一種有用的方式來記錄和呈現用於生成的數據的方法&。主要的缺點是時間上的投資。好處很多:爲我們實驗室的未來學生,未來的自我和其他潛在用戶提供高標準的文檔,完全可重複的數據,以及隨着收集更多數據而更新數據的平臺。通過R中的包發佈數據是否有優先級?

某些上下文:作爲平面文件發佈數據+元數據在我的領域通過由期刊託管的在線附錄日益普遍;一個third-party website也很受歡迎。複製數字&分析通常是可能的,但數據有時高度「按摩」,處理中的步驟不能總是被複制,有時會限制進行替代分析的能力。我的顧問&我想發佈15年縱向研究的前10年的數據。我已經需要清理我的數據處理腳本,以傳遞給未來的學生/合着者,這可能會讓一個內部使用的軟件包變得有用。

+0

Bioconductor項目使用包始終發佈數據。 – 2015-02-09 18:40:46

回答