我是EMR的新手,剛剛有幾個問題,我一直在努力與過去幾天。第一個是我想要處理的日誌已經被壓縮爲.gz,我想知道如果這些類型的文件能夠被emr分割,那麼多於一個的映射器將在文件上工作。我也一直在閱讀輸入文件不會被拆分,除非他們是5GB,我的文件不是那麼大,這意味着他們只會被一個實例處理?亞馬遜MapReduce輸入分割和下載
我的另一個問題可能看起來相對愚蠢,但是有可能使用emr + streaming,並且輸入s3以外的地方?從CDN下載日誌似乎是多餘的,然後將它們上傳到我的s3存儲桶以在其上運行mapreduce。現在,我把它們下載到我的服務器上,然後我的服務器將它們上傳到S3,是否有辦法切斷中間人,直接到S3,或者將輸入從我的服務器上運行?