2016-04-05 24 views
0

我有兩個腳本,它們解析來自原始日誌的數據並將其寫入HIVE的ORC表中。一個腳本創建更多列,另一個腳本更少。這兩個表由date字段分隔。蜂巢。檢查現有ORC存儲的條帶大小

因此,我有不同大小的文件的ORC表。 包含大量列的表由許多小文件組成(每個分區內每個文件大約4MB),而少列的表由少量大文件(每個分區內每個文件大約250 MB)組成。

我想這是因爲ORC中的stripe.size設置發生的。但我不知道如何檢查現有表格的條紋大小。像「show create」和「describe」這樣的命令不會顯示任何自定義設置,這意味着表的條帶大小應該等於256 MB。

我正在尋找任何建議來檢查現有的ORC表stripe.size。 或解釋ORC表內的文件大小如何取決於表中的數據。

P.s.稍後當我使用Map Reduce從該表中讀取時,以及對於具有大文件的表中的減少器數量很少。

回答

0

嘗試Hive ORC文件轉儲實用程序:ORC File Dump Utility

+0

感謝您分享此內容。我做了一些轉儲,但是我無法從輸出中找出任何有用的東西。例如,我發現小文件只有2個條紋,而大文件有62個條紋。它讓我不知道如何解決我的問題:) – Samriang