我正在使用亞馬遜EMR進行一些密集計算,但開始計算需要大約7分鐘,是否有一些巧妙的方法讓我的計算立即開始?計算是從用戶面對的網站開始的一個python流,所以我不能真正承受長時間的啓動。如何加速亞馬遜EMR bootstrap?
我可能只是錯過了亞馬遜AWS海洋中的一個選項。我只是想簡單地發佈作業(這是我使用EMR),可擴展性,並且僅支付我使用的內容(並且啓動時間沒有用)。
我正在使用亞馬遜EMR進行一些密集計算,但開始計算需要大約7分鐘,是否有一些巧妙的方法讓我的計算立即開始?計算是從用戶面對的網站開始的一個python流,所以我不能真正承受長時間的啓動。如何加速亞馬遜EMR bootstrap?
我可能只是錯過了亞馬遜AWS海洋中的一個選項。我只是想簡單地發佈作業(這是我使用EMR),可擴展性,並且僅支付我使用的內容(並且啓動時間沒有用)。
您的數據源託管在哪裏?
如果在S3(可能),如果你有很多小文件,它是每個連接(每個文件)的延遲花費時間。
如果這是唯一的原因,那麼,你的啓動時間7分鐘將轉化從S3時間閱讀〜5分鐘=>〜S3上
1GB輸入文件這是非常正常的,很少有你可以做這件事。我開始了100多個節點集羣,並且在開始處理之前我已經看到它們需要15分鐘以上的時間。鑑於後臺正在進行的工作量,我很樂意讓他們在15分鐘左右的時間內完成集羣的配置並讀取可能需要的任何數據。我害怕的野獸的性質。
我知道這是一個老問題,但有一些見解我會添加到下一個搜索者,他發現此線程希望加快Amazon EMR的引導時間。
有一段時間我想知道爲什麼我的團隊花了這麼長的時間開始,通常約15分鐘。這通常需要大量的時間來完成一個小時內完成的工作。有時候它會將工作推到1小時以上,但我認爲AWS不會爲完整的啓動時間收取費用。
最近幾天我注意到我的啓動時間得到了改善。你會發現現貨市場在四月和五月的第一週變得非常波動。通常情況下,我完全啓動我的集羣現場實例,因爲失敗是一種選擇,節約成本證明了我的情況。但是,等待14個小時後,我必須切換到OnDemand,我只有這麼多的耐心,過夜通常會超過它。 OnDemand羣集在大約5分鐘內啓動。由於瘋狂似乎已經減弱,現在已經轉回到現場,我回到了15分鐘的集羣。
所以,如果您在覈心或主節點上使用競價型實例,則需要較長的啓動時間。我將嘗試在覈心中使用一小組OnDemand,並增加大量現貨實例,以查看它是否有助於啓動並更好地處理現貨市場波動。
源是一個主要的30Mo文件加上5-6個其他配置文件在一邊,所以我不認爲這是問題所在。 – nraynaud
你使用什麼樣的實例?對於核心節點而言,任何小於媒體的性能都會降低。 – newToFlume