我目前正在構建一個應用程序,我正在爲大約15,000種產品導入(當前)統計數據。在目前,如果我要爲每天統計數據庫維護一個數據庫表,則每天將增加15,000行數據(假設每行5-10個字段主要爲float,int)。顯然,每年將超過500萬條記錄等同於一張表。什麼是存儲趨勢數據的最佳方式?
這並不關心我如何從其他來源引入數據(並因此增加了每個新來源的500萬條記錄的數據庫大小)。
現在數據是基於統計/趨勢的數據,並且每條記錄每天基本上有1次寫入,並且有很多讀取。爲了實時報告和繪圖,我需要快速訪問基於規則(日期範圍,值範圍等)的數據子集。
我的問題是,這是存儲數據的最佳方式(MySQL InnoDb表),還是有更好的方式來存儲和處理統計/趨勢數據?
其他選項我在這裏已經討論過: 1.多個數據庫(每個產品一個),每個數據源都有單獨的表。 (即Database:ProductA,Table(s):Source_A,Source_B,Source_C) 2.一個數據庫,多個表格(每個產品/數據源一個) (即數據庫:產品,表格:ProductA_SourceA,ProductA_SourceB等) 3.所有factual
或數據庫中的特定產品信息以及所有statistical
數據在csv,xml,json,(平面文件)中的不同目錄中。
到目前爲止,這些選項都非常易於管理,每種選項都有其優點和缺點。在進入alpha開發階段之前,我需要一個合理的解決方案。
我發現,談論使用MySQL基於列引擎PDF:http://forge.mysql.com/w/images/5/54/MySQLColumnDatabases.pdf,我要看看這個選項的更多一些,我之前沒有聽說過基於列的存儲,這可能是我正在尋找的。 – 2011-04-20 15:08:08