最初,我只能處理1.5 [TB]的數據。由於我只需要快速寫入/讀取(沒有任何SQL),我設計了自己的平面二進制文件格式(使用python
實現),並且輕鬆(並且高興地)保存了我的數據並在一臺機器上進行操作。當然,爲了備份目的,我添加了2臺機器用作精確的鏡像(使用rsync
)。NoSql與我自己的自定義二進制文件?
目前,我的需求在不斷增長,需要構建一個能夠成功擴展到20 [TB](甚至更多)數據的解決方案。 我很樂意繼續使用我的平面文件格式存儲。這是快速,可靠,給我我需要的一切。
我關心的是複製,數據一致性等等(很明顯,數據將不得不分佈 - all data
可以存儲在one machine
)通過網絡。
是否有任何ready-made
解決方案(Linux/python based
),這將讓我繼續使用我的文件格式進行存儲,但會處理其他組件NoSql
解決方案通常提供? (數據一致性/可用性/簡單複製)?
基本上,我想確定的是我的二進制文件在整個網絡中都是一致的。我使用的60芯雙核機的網絡(每個1GB RAM
和1.5TB disk
)
謝謝,這看起來很有趣;你是否經歷過其他解決方案,如'cassandra'和'MangoDB'?我可以問一下使用'Disco'處理過的數據集大小嗎? – user3262424 2011-04-06 16:58:38
...大約450GB。 – 2011-04-06 17:38:44
您是否也在數據存儲中使用'disco',或者僅用於運行作業?如果是的話,它的數據存儲能力有多好? – user3262424 2011-04-07 00:52:40