2011-12-07 59 views
1

我是EMR的新手,剛剛有幾個問題,我一直在努力與過去幾天。第一個是我想要處理的日誌已經被壓縮爲.gz,我想知道如果這些類型的文件能夠被emr分割,那麼多於一個的映射器將在文件上工作。我也一直在閱讀輸入文件不會被拆分,除非他們是5GB,我的文件不是那麼大,這意味着他們只會被一個實例處理?亞馬遜MapReduce輸入分割和下載

我的另一個問題可能看起來相對愚蠢,但是有可能使用emr + streaming,並且輸入s3以外的地方?從CDN下載日誌似乎是多餘的,然後將它們上傳到我的s3存儲桶以在其上運行mapreduce。現在,我把它們下載到我的服務器上,然後我的服務器將它們上傳到S3,是否有辦法切斷中間人,直接到S3,或者將輸入從我的服務器上運行?

回答

3

已經被壓縮的。廣州,我想知道,如果這些類型的文件都能夠通過EMR被分割,使更多然後一個映射器將在一個文件

唉,不,直工作gzip文件不可拆分。一種選擇是更頻繁地滾動日誌文件;這個非常簡單的解決方案適用於某些人,雖然它有點笨拙。

而且我一直在讀那輸入文件將不被分割,除非他們是5GB,

這絕對不是這樣的。如果文件是可拆分的,您可以在拆分方法上有很多選項,例如配置mapred.max.split.size。我發現[1]是對可用選項的一個很好的描述。

是否有可能使用emr +流媒體並有一個輸入其他然後s3?

是的。彈性MapReduce現在支持VPC,所以你可以直接連接到您的CDN [2]

[1] http://www.scribd.com/doc/23046928/Hadoop-Performance-Tuning

[2] http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_VPC.html?r=146