2014-11-21 24 views
0

這更多的是關於在源代碼管理下存儲數據集的可行性的一般性問題。 我有20 000個csv文件,每天更新數字數據。目錄的總體大小爲100M字節左右,它們存儲在本地磁盤上的ext4分區上。 每天的變化應該是約1kbyte的差異。源代碼管理下的中等數據集

我可能需要對數據進行更正,因此我正在考慮對整個目錄進行版本控制= 1,其中包含10個level1目錄,每個包含10個level2目錄,每個目錄包含200個csv文件。

數據由python進程(熊貓框架)寫入文件。 問題是關於寫入的性能,其中的增量與整個數據相比較小。

svn和git讓人想起,他們會有python模塊來使用它們。 什麼效果最好?

其他的解決方案,我相信可能的,但我會堅持保留數據文件,是...

回答

0

如果你問它是否會有效地把你的數據集版本控制之下,根據您的數據的描述,我相信答案是肯定的。 Mercurial和Git都擅長處理數千個文本文件。 Mercurial可能是一個更好的選擇,因爲它是用python編寫的,比Git更容易學習。 (據我所知,現在沒有充分的理由通過Subversion來實現一個新項目,因爲現在有更好的工具可用。)

如果您問是否有辦法通過借用代碼來加速應用程序的寫入一個版本控制系統,我認爲讓應用程序修改現有文件會容易得多。 (也許這就是你現在正在做的事情?從你寫的東西來看並不清楚。)

+0

git python then ...它只是第一段。 – MMM 2014-11-21 20:57:53