2012-11-13 103 views
0

我試圖使用s3cmd CLI將32GB文件上傳到S3存儲桶。它正在執行分段上傳並且經常失敗。我從一臺帶寬爲1000Mbps的服務器上做這件事。但上傳仍然非常緩慢。我能做些什麼來加快速度?亞馬遜S3分段上傳經常失敗

另一方面,該文件位於我提到的服務器上的HDFS上。有沒有辦法引用Amazon Elastic Map Reduce作業從這個HDFS中選取它?這仍然是一個上傳,但工作也正在執行。所以整個過程要快得多。

+0

請參閱以下問題是否有幫助:http://stackoverflow.com/questions/5774808/s3cmd-failed-too-many -times – Amar

回答

0

首先,我承認我從來沒有使用s3cmd的Multipart功能,所以我不能說那個。不過,我過去用boto上傳了大量(10-15GB文件)到S3,取得了很大的成功。事實上,對於我來說,這成爲了一項常見任務,因此我編寫了一個little utility以使其更容易。

至於你的HDFS問題,你總是可以用一個完全合格的URI來引用一個HDFS路徑,例如hdfs:// {namenode}:{port}/path/to/files。這假定您的EMR羣集可以訪問此外部HDFS羣集(可能需要使用安全組設置)