Q

需要最好的數據庫來處理大量的數據

2015-11-09 154 views -2 likes

-2

我有如下情況。需要最好的數據庫來處理大量的數據

每天我都會從不同的在線商店和內容提供商獲得256 GB的產品信息（例如CNET數據源）。這些信息可以是CSV，XML和TXT文件。文件將被解析並存儲到MongoDB中。後面的信息將被轉換爲可搜索的和索引到Elasticsearch。

所有的256 GB信息每天都沒有不同。大多數70％的信息都是相同的，價格，尺寸，名稱等方面的信息會經常更改。我正在處理文件usig PHP。

我的問題是

解析龐大的數據
映射領域內的DB（例如，標題是不是所有onlineshops冠軍。他們會給字段名稱作爲短標題或其它名稱）
每天增加GB信息。如何存儲所有和處理。（可能是Bigdata，但不知道如何使用它）
用大量數據快速搜索信息。

請建議我適合這個問題的數據庫。

2015-11-09 Bala

A

回答

0

分析海量數據 - Spark是最快的分佈式解決方案爲您的需要，還以爲你有70％相同的數據只是用於比較的重複，你反正要處理它，在這裏你可以做映射的都管不好。
數據存儲，如果你在這裏做任何的聚集，我建議使用HBase的/黑斑羚，如果您使用卡桑德拉
對於serching什麼產品的每一行，重要的是比Lucene的更快，因此使用Solr或Elasticsearch無論你認爲舒適，都是好的。

2015-11-09 06:40:50

+0

謝謝Amey ...我在探索可能性 – Bala

相關問題