0
我試圖找出差異(工具/服務/程序之間),數據倉庫,集羣數據處理和工具/基礎設施之間,用於查詢數據倉庫什麼是數據倉庫在這種使用情況下
所以我們可以說我有以下設置執行一些數據處理針對某一特定用途的情況下
Hadoop Cluster for Distributed Data processing
Hive for providing infrastructure and Functions for querying data from a data warehouse
My data sitting in an RDBMS or a NoSQL database
在上面的例子中,究竟什麼是數據倉庫?我天真的大腦認爲它是RDBMS或NoSQL數據庫在上述背景下是數據倉庫。但是根據定義,不是數據倉庫是用於報告和數據分析的數據庫嗎? (定義無恥地從維基百科竊取)。那麼我可以將傳統的RDBMS/NoSQL數據庫稱爲數據倉庫嗎?謝謝。
謝謝。那麼我可以使用Neo4j或Mongo作爲數據倉庫嗎?你還提到了Map Reduce。你是指Hadoop算法還是Map Reduce實現?如果是這樣的話,Hive適合它嗎? – user6123723
另外,如果我從一堆不同的RDBMS中提取數據並使用Hadoop集羣來處理它,那麼在這種情況下什麼是數據倉庫?謝謝。 – user6123723
我提到Map-Reduce,因爲它在NoSQL框架中都很常見,並且它是聚合不同粒度數據的好方法。一些數據存儲有自己的實現(MongoDB,CouchDB),但沒有什麼能阻止你使用它的外部實現(比如Hadoop)。 –