2012-07-28 47 views
0

我有各種財務時間序列的集合。我的大部分分析都是以列或行爲導向的,很少有我需要做任何複雜的查詢。此外,我(現在)在R中執行幾乎所有分析。R + bigmemory軟件包是否足夠用於面向列的數據管理?

因此,我認真考慮不部署任何種類的RDBMS,而是直接在R中管理數據(保存RDS文件)。這將爲我節省安裝管理數據庫的痛苦,並可能提高數據加載速度。

我有其他理由嗎?你知道以這種方式管理數據的人嗎?我知道這是模糊的,但我正在尋找意見,而不是答案。

回答

1

如果在R的工作是您的舒適區..即使您的分析或運行時間更長,我也會保持您的數據管理。

我最近有一個類似的決定:

  1. 我應該去學習的方向,並應用新(語言/方言/系統)剃掉執行時間幾毫秒。

    或...

  2. 我應該出去跟我用同樣的平庸老工具,即使他們將在執行時運行慢?

是您爲您運行的產品嗎?如果是這樣,我會堅持數據管理在R只..即使生產運行速度較慢。

如果您正在爲銀行,手機服務或類似的交易環境設計一些東西,我建議您找到超級解決方案。

但是如果你的R生產是給你的。我會留在R.

1

考慮機會成本。學習一門新的語言/生態系統 - 以及像PostgreSQL這樣的東西肯定有資格 - 將吸收比您想象的更多的時間。這些技能可能是有價值的,但是它們是否會產生與時間花費在現有分析上的回報相同的回報?

如果是個人使用,並且沒有緊迫的性能問題,請堅持R.鑑於使用文本和RDS文件執行愚蠢的事情通常比完全成熟的DB更容易,請確保您返回把所有東從對基於雲存儲的巨大懷疑態度來看,我在過去的半年中已經成爲一個巨大的轉換器,除了我最敏感的信息之外,現在都存儲在那裏。我使用Dropbox,如果你搞砸了,它會保存以前版本的數據。

能夠從智能手機角落的咖啡館檢查文檔或腳本是很好的。

0

CRAN中有一個逐列管理軟件包colbycol,旨在爲大型數據集提供類似DB的功能。我認爲作者必須進行同樣的分析。