2015-06-10 15 views
0

我相對來說是一個大數據處理的新手,從SO社區尋找一些特定的指導。單片ETL到分佈式/可伸縮解決方案和OLAP立方體到Elasticsearch/Solr

我們目前正在設置單片/順序ETL,不用說隨着數據的增長它不可擴展。我們有什麼選擇(確保分發和並行化,但需要具體說明)?我已經玩過Hadoop,可能適合在這裏使用,但我想知道那裏有哪些其他選項?可能更容易轉換爲數據庫開發人員?

與上述問題相關的一種情況是,我們還有一個用於彙總數據的OLAP多維數據集。 Elasticsearch或Solr是替代OLAP多維數據集的良好候選者嗎?有沒有人成功地做過這件事什麼是陷阱?

回答

0

目前我們正在研究的同類用例。

我們的方法可能會用滿。

步驟1:我們從DBS

步驟2 sqooping數據到HDFS:ETL邏輯豬腳本

步驟3:聚集的表數據到Solr建築物索引。

步驟4:通過web界面搜索solr。

在我們的用例中,我們正在開發pig作業來執行轉換邏輯,將其逐步存儲到最終文件夾中。後期MR索引器工具會將數據索引到solr.we正在使用cloudera-search。讓我知道是否有任何事情。