我有大量的數據(幾TB)並累積...它們包含在許多製表符分隔的文本文件中(每個大約30MB)。大部分任務包括讀取數據並基於一系列謂詞語句對觀察值/行進行彙總(彙總/平均+附加轉換),然後將輸出保存爲文本,HDF5或SQLite文件等。我通常使用R對於這樣的任務,但我擔心這可能有點大。一些候選方案是很多文本文件中的大量數據 - 如何處理?
- 寫了整個事情在C(或 的Fortran)
- 導入的文件(表)到直接在 關係數據庫和 然後決絕的R或Python的 塊(一些變換的不 適合純SQL的解決方案)
- 用Python語言編寫整個事情
會(3)是一個壞主意?我知道你可以用Python打包C例程,但是在這種情況下,由於沒有任何計算上的限制(例如,需要許多迭代計算的優化例程),我認爲I/O可能與計算本身一樣是一個瓶頸。您是否有任何關於進一步考慮或建議的建議?由於
編輯感謝您的答覆。似乎有發生衝突約Hadoop的意見,但在任何情況下,我沒有訪問到羣集(雖然我可以用幾個unnetworked機)...
偉大的問題,這聽起來像我與生物序列數據相同的問題。 – Stedy 2010-06-01 18:47:10