我正在開發抓取網上商店並查找產品的網絡爬蟲。目前,我只存儲最近發現的單一價格,但我還想存儲歷史記錄。 我使用MariaDB(5.3.8)和InnoDB表作爲主數據庫。什麼是價值歷史的最佳數據庫?
但是,我不確定MariaDB/MySQL可能是價格歷史的最佳數據庫。
我將每個產品每天最多節省一個價格,數據保留期約爲2-4年。 我的產品表將包含大約200萬行,這將使價格歷史記錄的行數高達約7.3億美元一年。
這是相當多的,methinks。
該數據需要快速訪問(可通過數字ID(產品ID)或SHA1散列值進行識別,無論哪種方法都更好/更容易)。
需要保存的數據是簡單的:
的product_id,價格,日期(!沒時間)
會有在數據庫軟件處理它沉重的負擔,因爲INSERT語句將相當發生通常和SELECT會像往常一樣經常發生,如果不是更頻繁的話。 爲了最小化SELECT查詢的目的,每隔一段時間將數據聚集到另一個數據庫是可能的,但是我寧願避免它,以免添加另一層'輔助腳本'。
根本不會執行DELETE。
你會建議什麼?
(product_id,date)至少需要一個索引,因爲每個產品每天只能有一個值。 我說過你在問我的所有問題。 備份是相關的,高可用性部分相關。 – 2013-02-14 12:18:02
這些都是修辭問題,我想說DML性能對你無關緊要。你應該只根據這些問題來決定。從這個意義上說,我建議你只使用你有的RDBMS。 – usr 2013-02-14 12:36:33