我有一個高度可並行化的計算密集型項目:基本上,我有一個函數,需要在大型表(Postgresql)中的每個觀察值上運行。該函數本身是一個存儲的Python過程。我應該如何配置Amazon EC2來執行可並行化的數據密集型計算?
亞馬遜EC2看起來非常適合該項目。
我的問題是這樣的:我應該製作一個已經包含數據庫的自定義圖像(AMI)嗎?這似乎具有最小化數據傳輸和使並行化簡單的優點:每個圖像可以得到一些指定的索引塊來計算,例如,圖像1得到1:100,圖像2 101:200等。分割數據和實例(大多數如何指導建議)似乎對我的應用程序沒有意義,但我對此非常陌生,所以我不相信我的直覺是正確的。
謝謝。如果我的數據絕對不會改變,這個建議是否仍然有效? – 2010-08-13 23:43:45
如果你的數據絕對不會改變,你可以將它包含在你自己的圖像中,但我不確定性能是否相同。這可能比較簡單,如果需要,您可以隨時遷移到掛載的EBS卷。 – 2010-08-14 02:41:29
謝謝 - 我昨天在EC2上玩過,而且你確定。對,重新:把所有內容放入EBS卷。供未來的搜索者查找此主題的FYI - 我發現這個一步一步的幫助: http://deadprogrammersociety.blogspot.com/2009/08/postgresql-on-ubuntu-on-ec2.html – 2010-08-15 14:25:19