2016-12-06 54 views
0

我的Apache Spark應用程序獲取各種輸入文件並將結果和日誌存儲在其他文件中。輸入文件與預計在亞馬遜雲上運行的應用程序一起提供(EMR似乎優於EC2)。如何從amazon emr中檢索文件?

現在,我知道我應該創建一個包含我的輸入文件和訪問它們的應用程序的超級jar。但是,一旦執行完成,我如何從雲中檢索生成的文件?

作爲附加信息,使用代碼中的相對路徑創建和寫入文件。

回答

0

假設你的意思是你想訪問羣集外的Spark應用程序生成的輸出,通常要做的就是寫入S3。那麼你當然可以從EMR集羣外部直接從S3讀取數據。

+0

這將意味着我必須用S3路徑初始化我的應用程序? 例如,PrintWriter writer = new PrintWriter(「s3:\\ log \\ logfile.txt」,「UTF-8」)。 – user3209815