同時分區和分段Hive表的好處是什麼? 我有一個表「訂單」,其中包含1M記錄,但記錄來自6個特定城市。 現在,如果我只鬥我的表訂單基於城市,我在我的倉庫目錄(Hive)中獲得6個不同的文件夾,每個文件夾對應於一個特定的城市和數據。分區和分區Hive表的優點是什麼?
當我分區,然後桶我的表訂單,仍然可以在我的倉庫目錄下看到相同的6個文件夾目錄下的配置單元。我嘗試使用16個桶,但仍然按照城市劃分數據文件夾。 下面是代碼:
create table Orders (id int, name string, address string)
partitioned by (city string)
clustered by (id) into 16 buckets
row format delimited fields terminated by ','
stored as TEXTFILE
可有人請說明爲什麼蜂巢是表現這種方式。 另外,我運行了一些性能指標,如計數和分組。在分區分區表中,我沒有發現任何顯着的改進,只有分區或只分區。
謝謝。
我在12個內核上運行Hadoop,有8個集羣的36 Gb RAM。
分區的權利,但bucketing理論和實踐之間存在差距http://stackoverflow.com/questions/43608422/hive-scanning-entire-data-for-bucketed-table。分段處理的優勢目前在SAMPLE/JOIN/GROUP BY操作中。 –
@DuduMarkovitz不再有...桶修剪已經在Hive 2.0中實現https://issues.apache.org/jira/browse/HIVE-11525 –
這張票似乎只與tez –