2012-05-23 83 views
3

我正在使用亞馬遜EMR進行一些密集計算,但開始計算需要大約7分鐘,是否有一些巧妙的方法讓我的計算立即開始?計算是從用戶面對的網站開始的一個python流,所以我不能真正承受長時間的啓動。如何加速亞馬遜EMR bootstrap?

我可能只是錯過了亞馬遜AWS海洋中的一個選項。我只是想簡單地發佈作業(這是我使用EMR),可擴展性,並且僅支付我使用的內容(並且啓動時間沒有用)。

回答

1

您的數據源託管在哪裏?

如果在S3(可能),如果你有很多小文件,它是每個連接(每個文件)的延遲花費時間。

如果這是唯一的原因,那麼,你的啓動時間7分鐘將轉化從S3時間閱讀〜5分鐘=>〜S3上

1GB輸入文件
+0

源是一個主要的30Mo文件加上5-6個其他配置文件在一邊,所以我不認爲這是問題所在。 – nraynaud

+0

你使用什麼樣的實例?對於核心節點而言,任何小於媒體的性能都會降低。 – newToFlume

2

這是非常正常的,很少有你可以做這件事。我開始了100多個節點集羣,並且在開始處理之前我已經看到它們需要15分鐘以上的時間。鑑於後臺正在進行的工作量,我很樂意讓他們在15分鐘左右的時間內完成集羣的配置並讀取可能需要的任何數據。我害怕的野獸的性質。

3

我知道這是一個老問題,但有一些見解我會添加到下一個搜索者,他發現此線程希望加快Amazon EMR的引導時間。

有一段時間我想知道爲什麼我的團隊花了這麼長的時間開始,通常約15分鐘。這通常需要大量的時間來完成一個小時內完成的工作。有時候它會將工作推到1小時以上,但我認爲AWS不會爲完整的啓動時間收取費用。

最近幾天我注意到我的啓動時間得到了改善。你會發現現貨市場在四月和五月的第一週變得非常波動。通常情況下,我完全啓動我的集羣現場實例,因爲失敗是一種選擇,節約成本證明了我的情況。但是,等待14個小時後,我必須切換到OnDemand,我只有這麼多的耐心,過夜通常會超過它。 OnDemand羣集在大約5分鐘內啓動。由於瘋狂似乎已經減弱,現在已經轉回到現場,我回到了15分鐘的集羣。

所以,如果您在覈心或主節點上使用競價型實例,則需要較長的啓動時間。我將嘗試在覈心中使用一小組OnDemand,並增加大量現貨實例,以查看它是否有助於啓動並更好地處理現貨市場波動。

+0

有趣。我使用的是所有現場實例,有些時候會相當快地開始(反正<10分鐘),有時甚至更長(15和計算我當前的羣集)。我不認爲這個點與OnDemand會影響啓動時間,但我知道什麼? –

+0

是的,我也看到了,有時它很快但通常不是。我現在基本上假設現場實例談判爲7分鐘,自舉爲7分鐘。 – AaronM

+0

爲什麼現場實例需要更長時間才能啓動?看起來這樣(有趣的),但如果你的出價超過了現貨,那麼不應該有任何額外的延遲 - 儘管在所有節點可以分配之前,你的購買推動價格上漲的可能性很小。 – Patrick