2015-11-09 154 views
-2

我有如下情況。需要最好的數據庫來處理大量的數據

每天我都會從不同的在線商店和內容提供商獲得256 GB的產品信息(例如CNET數據源)。 這些信息可以是CSV,XML和TXT文件。文件將被解析並存儲到MongoDB中。 後面的信息將被轉換爲可搜索的和索引到Elasticsearch。

所有的256 GB信息每天都沒有不同。大多數70%的信息都是相同的,價格,尺寸,名稱等方面的信息會經常更改。 我正在處理文件usig PHP。

我的問題是

  1. 解析龐大的數據
  2. 映射領域內的DB(例如,標題是不是所有onlineshops冠軍。他們會給字段名稱作爲短標題或其它名稱)
  3. 每天增加GB信息。如何存儲所有和處理。 (可能是Bigdata,但不知道如何使用它)
  4. 用大量數據快速搜索信息。

請建議我適合這個問題的數據庫。

回答

0
  1. 分析海量數據 - Spark是最快的分佈式解決方案爲您的需要,還以爲你有70%相同的數據只是用於比較的重複,你反正要處理它,在這裏你可以做映射的都管不好。

  2. 數據存儲,如果你在這裏做任何的聚集,我建議使用HBase的/黑斑羚,如果您使用卡桑德拉

  3. 對於serching什麼產品的每一行,重要的是比Lucene的更快,因此使用Solr或Elasticsearch無論你認爲舒適,都是好的。

+0

謝謝Amey ...我在探索可能性 – Bala