2017-04-19 84 views
0

在我mrjob.conf我做了額外的音量設置:亞馬遜EMR:當連接EBS捲到實例如何確保這個量是用來

Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.SizeInGB: 250 
    Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.VolumeType: gp2 
    Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumesPerInstance: 1 

當我運行在羣集我見對於每個實例,我都有10GB和250GB的卷。但EMR是否使用250GB存儲空間來保存數據?如果不是如何使它工作?

+0

我會提醒的是,EMR的最佳建議是在可能的情況下實際使用EMRFS - 即直接將S3掛載爲HDFS掛載點。在你的情況,是的,我相信它會自動拿起250 GB硬盤作爲HDFS寫入空間? EMR使用250GB存儲來保存數據嗎? – Henry

+0

,哪種數據以及誰在生成數據? –

回答

1

是,如果您在集羣啓動期間使用EMR API供應EBS卷,EMR會掛載,格式化和使用HDFS的EBS卷。

您可以看到它掛載到像/ mnt1 /,/ mnt2/etc這樣的點以及包含在hdfs-site.xml中的那些掛載點。所有寫入HDFS的寫入將根據hdfs-site.xml中設置的策略自動在這些安裝中進行負載平衡。當前的策略是*所有寫入都轉到最大卷,直到剩餘空間大致與剩餘卷相等,然後開始使用循環。

請注意,掛載點可能不會被所有內容使用,例如EMR可能不會使用這些掛載來將紗線容器日誌存儲在本地磁盤上。 (您可以稍後配置)