3

我正在使用Amazon EMR,我能夠正常運行大多數作業。當我開始加載並在EMR羣集中生成更多數據時,我遇到了一個問題。羣集用完存儲空間。Amazon EMR:在數據節點上配置存儲

每個數據節點都是一個c1.medium實例。根據鏈接herehere每個數據節點應該有350GB的實例存儲。通過ElasticMapReduce從屬安全組,我已經能夠在我的AWS Console中驗證c1.medium數據節點正在運行並且是實例存儲。

當我在namenode上運行hadoop dfsadmin -report時,每個數據節點都有大約10GB的存儲空間。這是通過運行DF -h

[email protected]:~$ df -h 
Filesystem   Size Used Avail Use% Mounted on 
/dev/sda1    9.9G 2.6G 6.8G 28%/
tmpfs     859M  0 859M 0% /lib/init/rw 
udev     10M 52K 10M 1% /dev 
tmpfs     859M 4.0K 859M 1% /dev/shm 

我如何配置我的數據節點的充分350GB存儲推出進一步驗證?有沒有辦法使用引導操作來做到這一點?

回答

7

經過更多的研究和在AWS論壇發佈後,我得到了一個解決方案,雖然沒有完全理解發生了什麼。以爲我會張貼這個作爲答案,如果沒關係。

結果發現AMI 2.0版中存在一個錯誤,當然這是我嘗試使用的版本。 (因爲我想將hadoop 0.20設置爲默認值,所以我切換到了2.0)AMI 2.0版中的錯誤阻止了實例存儲在32位實例上的掛載,這正是c1.mediums啓動時的情況。

通過在CLI工具上指定AMI版本應使用「最新」,問題得到解決,每個c1.medium都啓動了相應的350GB存儲。

例如

./elastic-mapreduce --create --name "Job" --ami-version "latest" --other-options 

有關使用的AMI和 「最新」,可以發現here的更多信息。目前「最新」設置爲AMI 2.0.4。 AMI 2.0.5是最新版本,但看起來它仍然是一個小錯誤。

相關問題