2016-08-05 33 views

回答

1

這不是最佳實踐。如果以這種方式創建數據,那麼試圖直接訪問HDFS數據的人將無法在每個分區中找到「分區列」。例如,說Teradata表被date列分區,然後如果hive表也被date分區,那麼HDFS分區表示2016-08-06將不具有日期字段。所以爲了方便最終用戶對虛擬列進行分區,例如date_d,它將與日期列的值完全相同。

0
  • 抽象地,在Teradata和蜂巢分區是similar.To開始 與你可能在你的源使用相同的列到 分區表。

    如果你的數據的大小在每個單個分區巨大的,再考慮進一步 它分區,以提高performance.The多 分區將主要​​取決於過濾器的數量,你在你的查詢申請 。