2010-07-18 59 views
0

我有大量需要存儲的科學數據(150 TB +起始數據),我想知道存儲數據的最佳方式(nosql或RDBMS等)大數據存儲(不是nosql)

任何提示......

詹姆斯

回答

1

這真的取決於你需要在以後的數據做什麼。如果數據是幾個非常大的文件的集合,那麼普通的文件系統就可以。如果你需要能夠搜索和分析數據,那麼數據庫可能是最好的解決方案。

我正在使用大型數據集以及科學環境。這些數據大部分是表格式的,當我們開始時我們存儲每個數據點就是一張表格。我們發現最終壓縮表格並將其存儲在二進制blob到數據庫中要容易得多。在單獨的表格中,我們存儲了關於這些表格的元數據。

2

回答這個問題可以從NoSQL或RDBMS中選擇:「我的數據是否構建在關係中?」

0

是否必須是一個數據庫類型? NoSQL的一部分意味着一個尺寸不適合所有,爲什麼不兩個或更多的NoSQL?一個列存儲和一個圖形數據庫如何?

0

你應該看看NetCDFHDF5。另外,請考慮使用PyTables來訪問和提取數據。