我有一個設計問題。我有一個3-4 GB的數據文件,按時間戳排序。我想弄清楚處理這個文件的最好方法是什麼。要讀取5GB文件
我正在考慮將這整個文件讀入內存,然後將這些數據傳輸到不同的機器,然後在這些機器上運行我的分析。
在運行我的分析之前將它上傳到數據庫是明智的嗎?
我打算在不同的機器上運行我的分析,所以通過數據庫進行分析會更容易,但如果我增加運行數量的機器運行,我對數據庫的分析可能會變得太慢。
任何想法?
@update:
我想逐個處理記錄。基本上試圖在時間戳數據上運行模型,但我有各種模型,因此需要分發它,以便整個過程每天運行一整夜。我想確保我可以輕鬆增加模型的數量並且不會降低系統性能。這就是爲什麼我打算將數據分發給所有運行該模型的機器(每臺機器將運行一個模型)。
http://en.wikipedia.org/wiki/MapReduce? – 2010-10-05 16:24:03
我想補充一點,這將是一項日常任務。 – silencer 2010-10-05 16:24:46
@ user465353,您需要執行的分析的性質是什麼?你需要對整個記錄集進行比較嗎?或者是純粹逐行分析? – 2010-10-05 16:28:03