2016-02-25 25 views

回答

1

這聽起來很奇怪,默認情況下,我的外部表通常具有大約300MB的文件大小。無論如何,調整這個最簡單的方法是使用一個PARTITION BY鍵(基於時間戳的東西),這將強制文件變小,並且還會使您的數據更容易查詢。你也應該考慮使用像Parquet這樣的可拆分格式,因爲那樣對你的文件大小無關緊要。

+0

不幸的是,數據並不是均勻分佈在可分區的密鑰中。此外,我將Hive用作ETL中的一個步驟,因此查詢性能不如數據吞吐量整體重要。大文件的大小在ETL的其他地方造成瓶頸。 – Conor

相關問題