2012-07-06 56 views
1

我最近開始使用Hadoop。有一個名爲Checkout的表格,可以通過Hive訪問。以下是數據轉到HDFS和其他信息的路徑。那麼,如果我必須閱讀以下三行,我可以得到什麼信息?關於Hadoop和Hive的基本知識

  Path          Size   Record Count  Date Loaded 
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00 1.13 TB  9,294,245,800  2012-07-05 07:26 
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00 1.13 TB  9,290,477,963  2012-07-04 09:37 
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00 1.12 TB  9,286,199,847  2012-07-03 07:08 

所以我的問題是 -

1)首先,我們正在加載的數據到HDFS,然後通過蜂巢我查詢它得到的結果回來?對?其次,當你查看上面的路徑和其他東西時,唯一令我迷惑的是,當我使用Hive查詢時,我將從上面的三個路徑中獲取數據?或最近的一個?

由於我是這些東西的新手,所以我有很多問題。任何人都可以解釋我蜂巢從哪裏獲取數據?我們將所有數據存儲在HDFS中,然後使用Hive或Pig從HDFS獲取數據?如果有人提供Hadoop和Hive的高級知識,那將會很棒。

回答

2

我想你需要弄清楚Hive的本地表和Hive的外部表之間的區別。
Hive本地表格表示您將數據加載到配置單元中,並且需要注意數據如何存儲在HDFS中。在這種情況下,我們通常不關心目錄結構是什麼。
Hive外部表格表示我們將數據放入某個目錄(如果我們暫時忘記了分區)並告訴Hive - 它是表格的數據。請對待是這樣的。配置單元使我們能夠查詢它,並與其他外部或常規表聯接。我們有責任添加數據,刪除數據等。