2013-02-14 96 views
0

我正在開發抓取網上商店並查找產品的網絡爬蟲。目前,我只存儲最近發現的單一價格,但我還想存儲歷史記錄。 我使用MariaDB(5.3.8)和InnoDB表作爲主數據庫。什麼是價值歷史的最佳數據庫?

但是,我不確定MariaDB/MySQL可能是價格歷史的最佳數據庫。

我將每個產品每天最多節省一個價格,數據保留期約爲2-4年。 我的產品表將包含大約200萬行,這將使價格歷史記錄的行數高達約7.3億美元一年。

這是相當多的,methinks。

該數據需要快速訪問(可通過數字ID(產品ID)或SHA1散列值進行識別,無論哪種方法都更好/更容易)。

需要保存的數據是簡單的:

的product_id,價格,日期(!沒時間)

會有在數據庫軟件處理它沉重的負擔,因爲INSERT語句將相當發生通常和SELECT會像往常一樣經常發生,如果不是更頻繁的話。 爲了最小化SELECT查詢的目的,每隔一段時間將數據聚集到另一個數據庫是可能的,但是我寧願避免它,以免添加另一層'輔助腳本'。

根本不會執行DELETE。

你會建議什麼?

回答

0

這是任何RDBMS的簡單場景。只要在這個窄表上插入1-2個索引就沒有問題了。每年730M行也很好(我想知道GB的數據量有多大 - 大概是10-20GB?)。

您應該根據戰略問題進行選擇。你已經擁有並使用了哪些RDBMS?你熟悉什麼?那麼備份和高可用性呢?

+0

(product_id,date)至少需要一個索引,因爲每個產品每天只能有一個值。 我說過你在問我的所有問題。 備份是相關的,高可用性部分相關。 – 2013-02-14 12:18:02

+0

這些都是修辭問題,我想說DML性能對你無關緊要。你應該只根據這些問題來決定。從這個意義上說,我建議你只使用你有的RDBMS。 – usr 2013-02-14 12:36:33

相關問題