0
Spark 2.1.x在這裏。我有一個配置爲從Amazon S3讀取/寫入數據的Spark羣集。我可以像這樣成功地做到這一點:通過Spark查詢Amazon S3對象元數據
val s3Path = "/mnt/myAwsBucket/some/*.json"
val ds = spark.read.json(s3Path)
到目前爲止好 - 如果有在該位置讀取所有的人都多JSON文件合併爲一個Dataset
。我正在尋找以某種方式獲取每個JSON文件上的最後修改時間戳,我讀取它並將其存儲在日期時間數組中。因此,如果有20個JSON文件正在閱讀,那麼我最終會得到一個包含20個日期時間的數組。
任何想法我可以做到這一點?查看Spark API文檔我沒有看到任何方法來查詢S3對象的元數據...