2016-04-07 71 views
0

我想知道如何配置Hive分區我知道這個概念,但我想了解它的工作方式和存儲在確切的分區。 假設我有一張表,並且我已經在2013年創建了它的動態獲取數據分區,因此hive如何創建分區並將精確數據存儲在確切分區中。Hive分區如何工作

回答

0

Hive將表組織成分區。這是根據分區列的值(如日期)將表分成相關部分的一種方法。

Partitions - 除了作爲存儲單元外 - 還允許用戶有效地識別滿足特定標準的行。

使用分區,很容易查詢一部分數據。

表或分區被細分爲桶,以向數據提供額外的結構以用於更高效的查詢。 Bucketing基於某個表的某列的哈希函數的值進行工作。

假設您需要檢索2012年加入的所有員工的詳細信息。查詢搜索整個表以獲取所需信息。但是,如果您將員工數據與年份進行分區並將其存儲在單獨的文件中,則會縮短查詢處理時間。

0

如果表未分區,則所有數據都將存儲在一個目錄中,而無需排序。如果表格是分區的(例如按年份),則數據分別存儲在不同的目錄中。每個目錄對應一年。 對於非分區表,當您要獲取year = 2010的數據時,配置單元必須掃描整個表以查找2010年記錄。如果表已分區,配置單元只需轉到year = 2010目錄。更快和IO高效