2010-09-27 456 views
0

我在這裏運行一個小測試/ poc。快速查詢hbase

我需要每天將數百萬行加載到數據庫中。而且它不是日誌文件數據,我用逗號分隔的行(列)恰好適合關係數據庫。

加載後,我需要一個非常快速的搜索機制。看一下谷歌的實施bigtable和周圍的結構,我原本以爲使用hbase集成的hive。 Hive因爲它的查詢能力。加載工作正常,比RDBMS性能更好。然而,查詢瓶頸,這也是首先尋找RDBMS替代品的原因,也是蜂巢式的。

用於查詢的測試配置單元並非真正出色的性能。也許我需要尋找替代品..

還有別的嗎?我可以放在hbase之上的任何其他工具/解決方案/庫?甚至沒有hbase? (我看的HBase作爲替代RDBMS,對DIST計算移動)

建議請...

回答

3

如果你想要一般的搜索功能,你可以考慮像SolrElasticSearch這樣的解決方案。如果您爲您需要的查詢(關鍵設計)準備數據而非一般搜索,HBase會很好地工作。你也可以看看結合Solr和HBase的Lily

+0

謝謝,solr幫了很大忙。 – Gyan 2012-04-12 13:29:52

1

你的問題是,蜂巢運行大多數的查詢作爲本質上是較慢的MapReduce程序。

如果您編寫自己的程序來運行適當的掃描然後自己分組,hbase可以非常快。如果你想要一個查詢語言,儘管目前還沒有我知道的解決方案。

很難多說,因爲你對數據的描述以及你想運行的查詢類型是非常通用的。

0

你看過solr或lucene類型的解決方案嗎?它不是一個SQL解決方案,但查詢語言對於某些類型的用途非常靈活,而且速度非常快。還有一些方法可以將其分佈到服務器集羣中,以提高性能,擴展索引的大小或可以處理的查詢數量,或者同時縮小索引的大小。

1

對於這個行數使用MySQL是不可想象的。你可以用一些測試數據嘗試一下,看看你是否可以擺脫它。