我在Spark中使用EMR 5.5.0。如果我使用s3://...
URL將簡單文件寫入s3,則它會寫入正確。但是如果我使用s3a://...
地址,則它將失敗Service: Amazon S3; Status Code: 403; Error Code: AccessDenied
S3A:在S3中失敗:在Spark EMR中工作
使用AWS命令行我可以在我正在寫入的路徑中創建cp,mv和rm文件。但從火花,s3a
失敗的put命令。
我們啓用了服務器端加密功能,我知道火花知道,因爲s3
網址有效。有任何想法嗎?
失敗PUT調試日誌here。也許需要注意的是,我正在做rdd.saveAsTextFile(path)
,但put命令說它試圖寫入/my-bucket/tmp/carlos/testWrite/4/_temporary/0/
它應該只在實木複合地板上做?不知道這個細節是否相關,但我想我會提到。
你碰巧知道'EMR''3協議是否允許Parquet中的謂詞下推? (類似於它如何使用's3a') –
不在FS級別,它位於Spark和Parquet庫之間。取決於AWS對這兩個項目所做的工作以及下推需要的任何設置。你最好測試它看看 –