我有一個工作在32個實例上使用Hadoop 0.20運行。它已運行了9個小時,沒有錯誤。在那段時間裏它已經處理了3800個任務,但我注意到只有兩個任務似乎卡住了,並且一直運行了幾個小時(顯然是因爲他們沒有超時而響應)。任務通常不會超過15分鐘。我不想失去已經完成的所有工作,因爲這花費了我很多錢。我真的只想殺這兩個任務,讓Hadoop重新分配它們,或者只是把它們算作失敗。直到他們停下來,我無法從其他3798地圖中獲得減少的結果!如何在Amazon EMR上終止正在運行的映射任務?
但我無法弄清楚如何做到這一點。我也考慮過試圖找出哪些實例正在運行的任務,然後終止的情況下,但
- 我不知道如何找出哪些情況下是罪魁禍首
- 恐怕會產生意想不到的效果。
我該如何殺死個別地圖任務?
儘管我仍然對這個答案感興趣以備將來參考,但我發現任務會在3小時後自殺。所以他們現在已經死了。 –