2015-01-05 91 views
0

我是hadoop技術的新手。我試圖找出哪些類型的數據(結構化,非結構化,半結構化)這些Pig Hive和Hbase被使用?Pig Hive Hbase如何彼此不同

哪種工具在這種情況下使用效率高?

回答

1

你應該閱讀的最基本的Hadoop文檔開​​始:http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F

然後,你可以找到每個項目工地的最好的解釋:


Apache的豬是用於分析大數據集的平臺它包含用於表達數據分析程序的高級語言,以及用於評估這些程序的基礎設施。 Pig程序的顯着特點是它們的結構適合於大量的並行化,這又使得它們能夠處理非常大的數據集。

http://pig.apache.org/


Apache的蜂巢™數據倉庫軟件便於查詢和管理駐留在分佈式存儲大型數據集。 Hive提供了一種機制來將結構投影到這些數據上,並使用一種名爲HiveQL的類似SQL的語言來查詢數據。同時,這種語言還允許傳統的map/reduce程序員在HiveQL中表示這種邏輯不方便或效率低時插入自定義映射器和reducers。

http://hive.apache.org/


使用Apache HBase的,當你需要你的大數據的隨機,實時讀/寫訪問。該項目的目標是託管非常大的表 - 數十億行×數百萬列 - 在商品硬件集羣上。 Apache HBase是一個開源的,分佈式的,版本化的非關係數據庫,其模型是由Chang等人在Google的Bigtable:一種用於結構化數據的分佈式存儲系統之後建模的。就像Bigtable利用Google文件系統提供的分佈式數據存儲一樣,Apache HBase在Hadoop和HDFS之上提供了類似Bigtable的功能。

http://hbase.apache.org/