我最近開始使用Hadoop。有一個名爲Checkout的表格,可以通過Hive訪問。以下是數據轉到HDFS和其他信息的路徑。那麼,如果我必須閱讀以下三行,我可以得到什麼信息?關於Hadoop和Hive的基本知識
Path Size Record Count Date Loaded
/sys/edw/dw_checkout_trans/snapshot/2012/07/04/00 1.13 TB 9,294,245,800 2012-07-05 07:26
/sys/edw/dw_checkout_trans/snapshot/2012/07/03/00 1.13 TB 9,290,477,963 2012-07-04 09:37
/sys/edw/dw_checkout_trans/snapshot/2012/07/02/00 1.12 TB 9,286,199,847 2012-07-03 07:08
所以我的問題是 -
1)首先,我們正在加載的數據到HDFS,然後通過蜂巢我查詢它得到的結果回來?對?其次,當你查看上面的路徑和其他東西時,唯一令我迷惑的是,當我使用Hive查詢時,我將從上面的三個路徑中獲取數據?或最近的一個?
由於我是這些東西的新手,所以我有很多問題。任何人都可以解釋我蜂巢從哪裏獲取數據?我們將所有數據存儲在HDFS中,然後使用Hive或Pig從HDFS獲取數據?如果有人提供Hadoop和Hive的高級知識,那將會很棒。