我正在嘗試使用cassandra作爲後端存儲來構建數據服務層。我是Cassandra的新手,不確定cassandra使用什麼客戶端 - thrift或cql 3?我們有很多mapreduce作業使用亞馬遜彈性mapreduce(EMR),它將以大批量從cassandra讀取/寫入數據。在Cassandra中總數據量將超過100 TB,數十億行。 mapreduce作業可能會讀取或寫入較高的qps(> 1000 qps)。要求如下:什麼cassandra客戶端用於haoop集成?
- 簡單的客戶端代碼。看起來節儉與Hadoop的內置集成使用sstableloader進行批量數據加載(http://www.datastax.com/dev/blog/bulk-loading)。
- 能夠在運行時定義新列。我們可能需要根據應用需求添加更多列。看來cql3不允許在運行時動態定義列。
- 大容量讀/寫的性能。不確定哪個客戶更好。然而,我發現這個職位,聲稱節儉客戶對高數據量更好的性能:http://jira.pentaho.com/browse/PDI-7610?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
我找不到那回答這個問題的信息任何權威來源。感謝你能幫助解決這個問題,因爲我確信這對大多數人來說是一個普遍問題,並且會使整個社區受益。
非常感謝提前。
-Prateek
首先忘記節儉,其卡桑德拉的基礎API的,嘗試一些封裝API的,簡單的代碼。 (原生CQL驅動程序,Astyanax,Hector,Pelops)。所有都是基於Java的 – abhi 2013-05-02 06:48:53