關於Hadoop和Hive的基本知識

我最近開始使用Hadoop。有一個名爲Checkout的表格，可以通過Hive訪問。以下是數據轉到HDFS和其他信息的路徑。那麼，如果我必須閱讀以下三行，我可以得到什麼信息？關於Hadoop和Hive的基本知識

  Path          Size   Record Count  Date Loaded 
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00 1.13 TB  9,294,245,800  2012-07-05 07:26 
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00 1.13 TB  9,290,477,963  2012-07-04 09:37 
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00 1.12 TB  9,286,199,847  2012-07-03 07:08

所以我的問題是 -

1）首先，我們正在加載的數據到HDFS，然後通過蜂巢我查詢它得到的結果回來？對？其次，當你查看上面的路徑和其他東西時，唯一令我迷惑的是，當我使用Hive查詢時，我將從上面的三個路徑中獲取數據？或最近的一個？

由於我是這些東西的新手，所以我有很多問題。任何人都可以解釋我蜂巢從哪裏獲取數據？我們將所有數據存儲在HDFS中，然後使用Hive或Pig從HDFS獲取數據？如果有人提供Hadoop和Hive的高級知識，那將會很棒。

來源

2012-07-06 ferhan

我想你需要弄清楚Hive的本地表和Hive的外部表之間的區別。
Hive本地表格表示您將數據加載到配置單元中，並且需要注意數據如何存儲在HDFS中。在這種情況下，我們通常不關心目錄結構是什麼。
Hive外部表格表示我們將數據放入某個目錄（如果我們暫時忘記了分區）並告訴Hive - 它是表格的數據。請對待是這樣的。配置單元使我們能夠查詢它，並與其他外部或常規表聯接。我們有責任添加數據，刪除數據等。

來源

2012-07-06 06:59:03

關於Hadoop和Hive的基本知識

回答

相關問題