aws-athena

0熱度

1回答

因此，我正在嘗試的是使用AWS Glue對S3存儲桶中的數據進行爬網。存儲爲嵌套的JSON和路徑數據是這樣的： s3://my-bucket/some_id/some_subfolder/datetime.json 當運行默認的抓取工具（沒有自定義分類），它基於路徑劃分，並如預期反序列化JSON，不過，我想擺脫時間戳文件名稱以及單獨的字段中。目前Crawler忽略它。例如，如果我上運行履帶：