2013-07-03 38 views
1

我們有不同的數據集到Hadoop,Cassandra,MongoDB等不同的系統中。但是我們的分析團隊希望從不同系統獲取拼接數據。例如,具有人口特徵的客戶信息將在一個系統中,他們的交易將在另一個系統中。分析應該能夠查詢獲取美國用戶的數據,交易量是多少。我們需要開發一個應用程序來提供與不同系統交互的簡易方法。什麼是最好的辦法?不同系統之間的大數據傳輸

另一個要求: 如果我們想提供自己的自定義的工作空間像MongoDB的一個系統,他們可以很容易地把它。按需將數據從一個系統提取到另一個系統的最佳策略是什麼?

任何指針或用來解決這類問題常見的架構將是很有益的。

+0

這種方法有什麼主要優勢嗎?我的意思是,爲什麼要將相關數據存儲在不同的系統中? – Tariq

回答

0

我在這裏看到了兩個問題:

  1. 我如何整合來自不同系統的數據到一個系統?
  2. 如何在Mongo中創建一些數據供人們進行實驗?

在這裏,我們去... =)

  1. 我會選一個系統和目標,對於鞏固。換句話說,在Hadoop,Cassandra和MongoDB之間,你的團隊最擅長哪一個?哪一個你覺得最容易查詢?你已經建立了哪個規模?

    每一個都有優點和缺點,規模,存儲和查詢能力。

    我會選擇一個,然後將所有數據泵入該系統。在最近的工作中,這最終成爲了MongoDB。將數據移動到Mongo非常簡單,它迄今爲止是最好的查詢語言。它也有一個偉大的社會和設置節點比Hadoop的更容易,等

  2. 一旦你已經解決了(1),你可以修剪您的數據集,並創建一個按比例縮小的沙箱的人跑的AD針對特定查詢。那將是我的方法。你不想支持整個數據集,因爲它可能太昂貴和複雜。

    如果你在關係數據庫中這樣做,我會說只是運行在每個表

    select top 1000 * from [table]

    查詢,並使用這些數據的人一起玩。