Amazon EMR：在數據節點上配置存儲

我正在使用Amazon EMR，我能夠正常運行大多數作業。當我開始加載並在EMR羣集中生成更多數據時，我遇到了一個問題。羣集用完存儲空間。Amazon EMR：在數據節點上配置存儲

每個數據節點都是一個c1.medium實例。根據鏈接here和here每個數據節點應該有350GB的實例存儲。通過ElasticMapReduce從屬安全組，我已經能夠在我的AWS Console中驗證c1.medium數據節點正在運行並且是實例存儲。

當我在namenode上運行hadoop dfsadmin -report時，每個數據節點都有大約10GB的存儲空間。這是通過運行DF -h

[email protected]:~$ df -h 
Filesystem   Size Used Avail Use% Mounted on 
/dev/sda1    9.9G 2.6G 6.8G 28%/
tmpfs     859M  0 859M 0% /lib/init/rw 
udev     10M 52K 10M 1% /dev 
tmpfs     859M 4.0K 859M 1% /dev/shm

我如何配置我的數據節點的充分350GB存儲推出進一步驗證？有沒有辦法使用引導操作來做到這一點？

來源

2012-06-01 Girish Rao

經過更多的研究和在AWS論壇發佈後，我得到了一個解決方案，雖然沒有完全理解發生了什麼。以爲我會張貼這個作爲答案，如果沒關係。

結果發現AMI 2.0版中存在一個錯誤，當然這是我嘗試使用的版本。（因爲我想將hadoop 0.20設置爲默認值，所以我切換到了2.0）AMI 2.0版中的錯誤阻止了實例存儲在32位實例上的掛載，這正是c1.mediums啓動時的情況。

通過在CLI工具上指定AMI版本應使用「最新」，問題得到解決，每個c1.medium都啓動了相應的350GB存儲。

例如

./elastic-mapreduce --create --name "Job" --ami-version "latest" --other-options

有關使用的AMI和「最新」，可以發現here的更多信息。目前「最新」設置爲AMI 2.0.4。 AMI 2.0.5是最新版本，但看起來它仍然是一個小錯誤。

來源

2012-06-02 13:58:07

Amazon EMR：在數據節點上配置存儲

回答

相關問題