0
我已經以這種格式分區存儲在S3中的數據。如何提高從雅典娜s3數據的查詢性能
bucket/year=2017/month=3/date=1/filename.json
bucket/year=2017/month=3/date=2/filename1.json
bucket/year=2017/month=3/date=3/filename2.json
每個分區都有大約1,000,000條記錄。我在雅典娜爲此創建了表格和分區。
現在從雅典娜
select count(*) from mts_data_1 where year='2017' and month='3' and date='1'
運行的查詢此查詢正在1800秒掃描1,000,000記錄時,。
所以我的問題是如何改善這種查詢性能?
什麼是分區列的定義? –
PARTITIONED BY(年份字符串,月份字符串,日期字符串) – Shailendra
Athena在該查詢中掃描了多少個文件和字節的數據? – James