0
我們尋找一個快速,可擴展的分析數據庫在亞馬遜雲來託管查詢,如最快可擴展數據庫「的黨團,算上」查詢
「從表組選擇值,COUNT(*)的值」
我們testet大量的分析和數據倉庫解決方案,但我們沒有找到一個我們需要:(
有所有各方以〜50mio記錄的錶慢
測試:
- 紅移
- RDS(MySQL和甲骨文,Postgres的)
- Clustrix
我們尋找一個快速,可擴展的分析數據庫在亞馬遜雲來託管查詢,如最快可擴展數據庫「的黨團,算上」查詢
「從表組選擇值,COUNT(*)的值」
我們testet大量的分析和數據倉庫解決方案,但我們沒有找到一個我們需要:(
有所有各方以〜50mio記錄的錶慢
測試:
@FrankyK
Clustrix(向外擴展RDB)具有hash_aggregate_partial &結合在向外擴展聚集執行計劃。 (每個節點和cpus可以在NewSQL的性質上並行工作,檢查表中有多少節點和cpus,它需要正確使用)。對於您的查詢'按值分組',您應該使用包含'value'列的索引測試'dist_stream_aggregate'。它比hash_aggregate_partial更快。
請記住,'價值'的偏度和NDV可能會影響GROUP BY的表現。在我真正的測試中,我發現ClutrixDB絕對可以在2億行以上的情況下擊敗ORACLE,MySQL(即使Oracle具有並行處理和多塊I/O - 全表掃描和全索引掃描)意味着適合Scale-Out的行數和大小)。
這取決於你如何測試它的工作效果。不應該索引使這非常快? – bdean20
問題是大多數DB使Tablescans獲得計數(*)。索引不起作用嗎? – FrankyK
數據庫不會爲這樣的查詢執行表掃描,特別是Redshift,它主要是一個列狀數據庫。您可以提供一些關於您使用什麼樣的HW以及您在該查詢上運行此查詢的數據量(TB或Gb) ?你期望什麼樣的時間以及你在查詢的時間。如果數據沒有偏斜,這個彙總查詢應該非常快。如果您可以提供更多詳細信息,我可以進一步提供幫助。謝謝 – 2014-02-01 23:46:01