2016-01-06 33 views
6

如果在任何配置單元表上運行DESCRIBE EXTENDED命令,結果會在輸出結尾處顯示totalSize和rawDataSize值。以下字段的含義:'totalSize'和'rawDataSize'是否在hive中的DESCRIBE EXTENDED查詢輸出中表示?

這些字段是什麼意思?

例:

hive > DESCRIBE EXTENDED <TableName> 

Output Results: 

Table(tableName:TablenameXXXXX, dbName:XXxXXX, 
..........  ....................... 
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600}) 

回答

6

rawDataSize是原始數據集的大小,總計TOTALSIZE是存儲需要的量。它適用於ORC文件格式,因爲它壓縮的數據totalSize將比rawDataSize小。 - 在磁盤上

  • rawDataSize數據的近似大小 - 在存儲器中的數據的近似大小
  • 蜂房MapReduce的使用總計TOTALSIZE

    • 總計TOTALSIZE:

    +0

    totalSize僅反映已使用數據部分的使用空間,還是包含已使用數據部分和HDFS塊的任何未使用部分? –

    +0

    totalSize是HDFS塊大小的倍數嗎? –

    +0

    它不一定是塊大小的倍數。 HDFS不會浪費存儲在文件的最後一個塊上。如果文件大小爲200 MB並且塊大小爲128 MB,則第一個塊的大小爲128 MB,第二個塊的大小爲72 MB –

    1

    數據的大小是由兩個統計描述。當兩者都可用時,Spark上的Hive使用rawDataSize。由於壓縮和序列化,totalSize和rawDataSize之間的差別可能會出現在同一個數據集中。

    相關問題