我正在使用Cassandra來存儲我的數據和配置單元以處理我的數據。 我有5臺機器上設置了cassandra和2臺機器作爲分析節點(其中配置單元運行) 因此,我想問的是,是否在兩臺機器(分析節點)上配置了映射減少並將數據帶到那裏或它將進程/計算移動到5個cassandra節點,並在這些機器上處理/計算數據(我知道在hadoop中,進程轉移到數據而不是數據進行處理)。cassandra數據庫上的Hadoop
8
A
回答
16
如果您有興趣與Hadoop和Cassandra結婚 - 第一個鏈接應該是圍繞這個概念構建的DataStax公司。 http://www.datastax.com/ 他們用HDFS替換cassandra來構建和支持hadoop。 在盡我的理解 - 他們有數據局部性:http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/
有一個關於Hadoop的& Cassandra的數據局部性好的答案,如果你運行的MapReduce對Cassandra的 Cassandra and MapReduce - minimal setup requirements
關於你的問題 - 有一個tradeof : a)如果在單獨的節點上運行Hadoop/Hive,則會丟失數據本地及其數據吞吐量,這受限於網絡帶寬。 b)如果您在與cassandra運行相同的節點上運行hadoop/Hive - 您可以獲取數據位置,但在hive查詢後面執行MapReduce處理可能會阻塞您的網絡(以及其他資源),從而影響cassandra的服務質量。
如果您的cassandra集羣的性能至關重要,我的建議是將單獨的配置單元節點。
如果您的cassandra主要用作數據存儲並且不處理實時請求 - 那麼在每個節點上運行配置單元將提高性能和硬件利用率。
相關問題
- 1. 在AWS上保護Cassandra數據庫
- 2. Hadoop Hive數據庫
- 3. Hadoop和數據庫
- 4. Cassandra-Hadoop集成
- 5. Cassandra WordCount Hadoop
- 6. Cassandra和Hadoop
- 7. hadoop的數據挖掘庫
- 8. cassandra上的數據建模?
- 9. Cassandra用於數據倉庫
- 10. 構建cassandra數據庫
- 11. Cassandra(BI數據庫數據複製)
- 12. 將ascii數據導入cassandra數據庫
- 13. Giraph,Hadoop,Spark和Cassandra
- 14. Hadoop與關係數據庫
- 15. 如何從Cassandra的數據導入到的Hadoop文件系統
- 16. 使用hadoop讀取/寫入Cassandra的數據
- 17. 瞭解cassandra數據庫的Ruby腳本
- 18. 除Cassandra以外的WSO2 BAM數據庫
- 19. Apache Cassandra數據庫的安全副本
- 20. Django with cassandra - 沒有cassandra數據庫的模式
- 21. 帶Hadoop ETL的數據倉庫
- 22. Hadoop和數據庫之間的關係
- 23. Cassandra vs HBase for Hadoop工作
- 24. 用Hadoop擴展Cassandra和Mahout
- 25. Hadoop Cassandra集成設計
- 26. 將數據寫入Cassandra Hadoop映射器(不減少)
- 27. Apache Cassandra磁盤上的數據存儲
- 28. Cassandra數據庫,哪個python接口?
- 29. 同步elasticsearch&cassandra與postgres數據庫
- 30. cassandra數據庫用jmeter測試
非常感謝您的幫助 – 2013-02-12 11:15:48