2010-01-16 66 views
10

我有一個應用程序需要針對不同級別的聚合進行分析,這就是OLAP工作負載。我也想經常更新我的數據庫。任何可擴展的OLAP數據庫(Web應用程序規模)?

例如,這裏是我的更新是什麼樣子(架構是這樣的:時間,DEST,源IP,瀏覽器 - >訪問次數)

(15:00-1-2-2010, www.stackoverflow.com, 128.19.1.1, safari) --> 105 

(15:00-1-2-2010, www.stackoverflow.com, 128.19.2.1, firefox) --> 110 

... 

(15:00-1-5-2010, www.cnn.com, 128.19.5.1, firefox) --> 110 

然後我要問什麼是WWW的總訪問.stackoverflow.com從上個月的Firefox瀏覽器。

我知道Vertica系統可以以相對便宜的方式來執行此操作(性能和可擴展性明智,但不是成本明智的)。我在這裏有兩個問題。

1)有沒有一種開源產品可以用來解決這個問題?特別是,Mondrian系統的工作效果如何? (可伸縮性和性能) 2)是否有HBase或Hypertable基礎解決方案(顯然,裸體HBase/Hypertable不能這樣做)? - 但是如果有一個基於HBase/Hypertable的項目,可擴展性可能不會成爲IMO的問題)?

謝謝!

+0

您的預期數據量是多少?每天點擊100萬次?千萬? – 2010-01-21 09:23:42

回答

2

您可以下載greenplum數據庫的免費版本(單節點版本)。我沒有嘗試過,但我認爲/猜測它是一個強大的野獸。這裏閱讀:http://www.dbms2.com/2009/10/19/greenplum-free-single-node-edition/

另一個選擇是MongoDB,它是快速和免費的,你可以用JavaScript編寫MapReduce函數來做分析。

我在這裏的聲望是低到添加一個超級鏈接到mongodb,所以你必須谷歌。我只能爲每個帖子添加一個超鏈接。

+0

greenplum不是免費的 – charlie111 2010-01-19 06:57:54

+0

單節點版本是免費的。 – AABBCCDD 2010-01-19 18:58:19

+0

澄清:Greenplum SNE「像啤酒一樣自由」。您不必爲此付錢,但是您可以部署它的服務器的大小和數量受到許可限制,並且未公開發布源代碼。 – goodside 2011-09-22 14:03:37

0

是您的數據模型比這更復雜?如果不是,你可能會爲它編寫自定義代碼。然後你可以真正調整到你的數據。真正的產品必須提供很多靈活性,因此需要很多複雜的工作來實現這一點,並因此而受到影響。

你的問題在一個方面不明確:當你談論可擴展性時,你的意思是什麼?你是從很多網站收集數據,但只有有限的查詢用戶,或者你也有很多用戶?這種情況導致了一種截然不同的模式。

+0

我在這裏看不到數據模型。原帖希望在HBase的頂部,等找到預先計算(立方體格子)溶液 你正在談論的MapReduce,它擴展了什麼蜂巢是幹什麼的,但本質上它是一個批處理模式 – 2011-02-05 09:53:19

+0

沒有,我正在談論編寫代碼和使用平面文件。當然取決於數據模型和實體的數量。 – 2011-02-05 09:53:19

相關問題