aws-athena

    0熱度

    1回答

    因此,我正在嘗試的是使用AWS Glue對S3存儲桶中的數據進行爬網。存儲爲嵌套的JSON和路徑數據是這樣的: s3://my-bucket/some_id/some_subfolder/datetime.json 當運行默認的抓取工具(沒有自定義分類),它基於路徑劃分,並如預期反序列化JSON,不過,我想擺脫時間戳文件名稱以及單獨的字段中。目前Crawler忽略它。 例如,如果我上運行履帶: