uwenku
標簽列表
aws-athena
0
熱度
1
回答
基於文件名的AWS Glue自定義爬蟲程序
因此,我正在嘗試的是使用AWS Glue對S3存儲桶中的數據進行爬網。存儲爲嵌套的JSON和路徑數據是這樣的: s3://my-bucket/some_id/some_subfolder/datetime.json 當運行默認的抓取工具(沒有自定義分類),它基於路徑劃分,並如預期反序列化JSON,不過,我想擺脫時間戳文件名稱以及單獨的字段中。目前Crawler忽略它。 例如,如果我上運行履帶:
amazon-web-services
amazon-s3
aws-glue
aws-athena
2017-11-17
最新問題
1.
在角度工人中導入模塊?
2.
Python布爾方法命名約定
3.
jquery background-image
4.
從s3檢索音頻時出錯
5.
如何將QR碼自動添加到圖像
6.
16個任務(1048.5 MB)的序列化結果的總大小大於spark.driver.maxResultSize(1024.0 MB)
7.
打字稿,使用類沒有構造
8.
PHP通過除去空鍵
9.
Jest TypeError:無法讀取未定義的'商店'
10.
在C++中有沒有一種慣用的方法來防止運行一組操作導致集合發生變化的情況?