0
我可以在Hive中創建EXTERNAL TABLE
,其中數據以Gzip格式存儲在S3存儲桶中。但是,這些文件非常大(每個超過6GB)。如何在S3上指定Hive EXTERNAL TABLE數據的文件大小
Can Hive可以配置爲使EXTERNAL TABLE
中的文件具有特定的大小,比如512MB?
我可以在Hive中創建EXTERNAL TABLE
,其中數據以Gzip格式存儲在S3存儲桶中。但是,這些文件非常大(每個超過6GB)。如何在S3上指定Hive EXTERNAL TABLE數據的文件大小
Can Hive可以配置爲使EXTERNAL TABLE
中的文件具有特定的大小,比如512MB?
這聽起來很奇怪,默認情況下,我的外部表通常具有大約300MB的文件大小。無論如何,調整這個最簡單的方法是使用一個PARTITION BY
鍵(基於時間戳的東西),這將強制文件變小,並且還會使您的數據更容易查詢。你也應該考慮使用像Parquet這樣的可拆分格式,因爲那樣對你的文件大小無關緊要。
不幸的是,數據並不是均勻分佈在可分區的密鑰中。此外,我將Hive用作ETL中的一個步驟,因此查詢性能不如數據吞吐量整體重要。大文件的大小在ETL的其他地方造成瓶頸。 – Conor