2009-10-23 76 views
4

我建立了一些報告工具和我們的網站(相當於一箇中型網站,每天收到幾百萬的瀏覽量),如果有什麼好的自由/開源想知道數據倉庫系統在那裏。免費數據倉庫系統 - 特別是用於數據存儲

具體來說,我正在尋找的東西只存儲數據 - 我計劃建立一個自定義前端/ UI它,因此它表明我們關心的信息。不過,我不想爲此建立一個定製的數據庫,雖然我很確定一個SQL數據庫在這裏不起作用,但我不確定要準確使用什麼。任何指向有用的文章也將不勝感激。

編輯:我應該提到 - 我簡要介紹過的一個數據庫是MongoDB。看起來它可能有效,但他們的「使用案例」特別提到數據倉庫爲「不太合適」:http://www.mongodb.org/display/DOCS/Use+Cases。另外,它似乎並不專門針對數據倉庫。

+0

你想在你的倉庫中存放什麼樣的數據? – 2009-10-23 22:34:59

+0

這將用於我們自己的分析。一些典型的東西,如URL訪問,頁面加載時間等,以及一些特定於我們網站的內容(用戶ID,用戶活躍的城市,上次登錄等) – 2009-10-23 22:55:26

+0

大多數開源DW/BI設備依賴在開源DBMS上。爲什麼你很確定一個SQL數據庫在這裏不起作用? – 2009-10-25 23:24:05

回答

5

http://www.hypertable.org/可能是你在找什麼是(和我被你上面的描述這裏發生)的東西,存儲大量與規範化記錄的數據。即訪客日誌。

Hypertable基於谷歌的bigTable項目。 請參閱http://code.google.com/p/hypertable/wiki/PerformanceTestAOLQueryLog的基準測試

您失去了基於SQL的dbs的關係功能,但是您在性能上獲得了很多。你可以很容易地使用hypertable來存儲每小時數百萬行(硬盤空間的承受能力)。

希望幫助

+0

謝謝 - 這是我正在尋找的那種東西。 – 2009-10-28 06:50:23

+0

看起來很有趣,但它那種引起他們表現出與美國在線的數據,而不是從www.tpc.org標準化測試統計警告標誌(他們有數據集非常類似AOL的。) – alecco 2009-11-01 07:02:16

3

我可能無法正確理解問題 - 但是,如果您有時間(重新)訪問Kimball的「數據倉庫工具包」,您會發現基本DW所需的全部內容都是普通的SQL數據庫,換句話說,您可以使用MyISAM爲存儲引擎構建一個體面的DW與MySQL。問題只在於信息的期望粒度 - 你想保留多久。如果您的報告大多數是定期報告,並且您實施報告存儲或緩存,則無需存儲預先計算的聚合(不需要立方體)。換句話說,帶有緩存報告的Kimball明星在許多情況下可以提供不錯的表現。 您還可以查看社區版「Pentaho BI套件」(開源),以快速入門ETL,分析和報告 - 並在進入自定義開發之前嘗試一下評估性能。 雖然這可能不是您所期望的,但可能值得考慮。

2

除了Hypertable的麥克的答案,你可能想看看Apache的Hadoop項目:

http://hadoop.apache.org/

他們提供了一些可能有用的工具爲您的應用程序,包括HBase,另一個BigTable概念的實現。我想象一下,你可能會發現他們的mapreduce實現也很有用。

+0

更具體[http://hadoop.apache.org/hbase/Hbase],它運行在hadoop內核上 – 2009-10-28 23:26:00

0

我看到了類似的問題和使用普通的MyISAM與http://www.jitterbit.com/作爲數據訪問層的思想。 Jitterbit(或其他免費工具)似乎對於這種轉換非常好。

希望這會有所幫助。

3

Pentaho Mondrian

  • 開源
  • 使用標準的關係型數據庫
  • MDX(認爲數據透視表)
  • ETL(通過燒水壺)

我用這個。

2

這一切都取決於數據和您打算如何訪問它。 MonetDB是來自最具革命性的數據庫技術團隊的面向列的數據庫引擎。他們just got VLDB's 10-year best paper award。數據庫是開源的,有plenty of reviews online讚美他們。

也許你應該看看TPC,看看,他們的測試問題的數據集你的情況和工作從那裏最佳匹配。

還要考慮併發的需求,它增加了一個很大的開銷,任何種類的方法,有時是不是真的需要。例如,您可以預先摘要某些摘要或索引數據,並且只有那些受高度併發保護的摘要或索引數據。分析您的數據查詢是以下步驟。

關於SQL,我不喜歡,要麼,但我不認爲這是聰明的排除發動機只是因爲前端的語言。

0

很多人只使用MySQL或Postgres的:)

相關問題