我有兩組文件包含CSV格式的數據與一個公共密鑰(時間戳) - 我需要按時間順序遍歷所有記錄。Python排序文件同步閱讀
A組: '環境數據'
- 文件名是格式A_0001.csv,A_0002.csv等
- 預排序上升
- 關鍵是時間戳, ieYYYY-MM-DD HH:MM:SS
- 包含CSV /列格式的環境數據
- 非常大數據
B組的E,幾個GB值得: '事件數據'
- 文件名是在格式B_0001.csv,B_0002.csv
- 預排序升序
- 鍵是時間戳,即YYYY-MM-DD HH:MM:SS
- 包含CSV /列格式的基於事件的數據
- 相對較小升相比,A組的文件,< 100 MB
什麼是最好的辦法?
- 預合併:使用不同的配方在那裏的一個文件合併成一個單一的有序輸出,然後讀給處理
- 實時合併:實現代碼爲「合併'的文件實時
我將運行大量的後處理方面的迭代。任何想法或建議?我正在使用Python。
A和B文件編號是否相互對應? – 2010-01-09 23:01:57
每個A文件是否有B文件,反之亦然? (A,B)和i
2010-01-10 03:57:01
有幾百個A組文件,只有幾個B組。每種文件中的數據/記錄隨着時間的推移而隨機分佈。然而,A組的記錄數量非常大,因此每個時間戳一般都被覆蓋,但B組記錄的數量小得多,因此記錄被廣泛分散。 – belvoir 2010-01-10 22:21:28