這更多的是關於在源代碼管理下存儲數據集的可行性的一般性問題。 我有20 000個csv文件,每天更新數字數據。目錄的總體大小爲100M字節左右,它們存儲在本地磁盤上的ext4分區上。 每天的變化應該是約1kbyte的差異。源代碼管理下的中等數據集
我可能需要對數據進行更正,因此我正在考慮對整個目錄進行版本控制= 1,其中包含10個level1目錄,每個包含10個level2目錄,每個目錄包含200個csv文件。
數據由python進程(熊貓框架)寫入文件。 問題是關於寫入的性能,其中的增量與整個數據相比較小。
svn和git讓人想起,他們會有python模塊來使用它們。 什麼效果最好?
其他的解決方案,我相信可能的,但我會堅持保留數據文件,是...
git python then ...它只是第一段。 – MMM 2014-11-21 20:57:53