2013-10-08 74 views
0

我正試圖在Amazon EC2上永久設置Hadoop。目前我所做的是每天早上啓動EC2實例並設置Hadoop。有什麼辦法可以避免這個乏味的步驟嗎?我正在尋找一個可以在EC2上加載的Hadoop映像,並使我的工作變得簡單。我在哪裏可以找到EC2上的Hadoop的AMI?

我知道我可以將EMR用於hadoop服務。但我不知道如何在不提交工作流的情況下啓動EMR(hadoop)集羣。我的意思是我需要一個沒有任何作業的hadoop集羣。

最終我的目標是運行生物信息學應用程序,如DistmapSeal。爲了運行這些應用程序,有許多依賴關係。所以我需要一個免費的hadoop集羣來設置環境,然後運行這些應用程序。 我希望它清楚我想要做什麼。

謝謝。

回答

1

這更多的是配置管理和自動化問題。嘗試像廚師和傀儡一樣的CMT,根據你的願望做到這一點。

+0

有趣。我認爲這對我來說是一個好開始.. – Ashwin

3

你可以做什麼是以下之一:

選項1.先有自己的EBS支持的EC2實例與您喜愛的Linux發行版。繼續並安裝您需要的Hadoop軟件。創建與您將需要的實例類型(主/從/ etc)一樣多的EC2實例。您可以在AWS控制檯中創建自己的AMI(右鍵單擊EC2實例並單擊「創建AMI」)。然後,您可以基於此AMI啓動您自己的實例,數量儘可能多。您也可以從實例存儲支持的實例創建AMI,但這意味着將所有內容都轉儲到S3並從那裏創建AMI。有很多這方面的教程,請留下評論,如果你需要方向:)

選項2.從基於Hadoop的AMI開始,在做自己的配置/添加依賴關係後重覆上述步驟。我繼續從AWS控制檯搜索Hadoop AMI,在EU-West-1中有48個(不知道您正在使用哪個區域)。

選項3.以交互模式啓動EMR集羣。在完成作業流程之後,還可以選擇使羣集保持活動狀態。如果您還爲EMR實例設置了EC2密鑰,那麼您應該可以通過SSH進入它們並擁有一個功能完整的Hadoop集羣(儘管您不確定依賴關係,但您可能更適合自己開發)。

我希望我能正確理解你想要達到的目標,這有點幫助。

+0

我確實嘗試了兩種選擇;但我遇到了一些錯誤。最終,我最終使用了Whirr來設置hadoop。到目前爲止沒有像這樣的問題。無論如何,感謝您的幫助。 – Ashwin

相關問題