2012-10-25 25 views
1

我想從大量交易數據中找出信息數據模式。大量交易數據信息模式生成

通常,我的數據是具有定義良好的列的記錄集(例如發件人,收件人,金額,貨幣地址等 - 我有大約40-50個不同的列),數據量將是數百萬(可能是100萬)記錄和我的目標是從這樣產生信息交易模式 - 誰購買特定項目最多,交易量最高的交易接受者,費用模式,誰獲得更多來自同一個另一個發件人的交易等。

此前我打算加載關係數據庫(Oracle/MySQL)中的數據並編寫複雜的SQL來獲取這些信息,但通過在我的概念證明期間查看數據量,它似乎沒有太大的可擴展性。

我試圖獲得更多關於使用Hadoop等進行分佈式數據處理的信息。我剛開始閱讀Hadoop,直到我初步瞭解Hadoop非常適合未經過處理的數據處理,並且可能對關係數據處理沒有多大用處。

任何關於開源技術的指針/建議,我可以快速嘗試。

回答

0

Hadoop可用於結構化/非結構化數據處理。此外,它不是一個維護關係的數據庫,像傳統的RDBMS一樣是索引。

數百萬行HBaseCassandra加上/不加Hive可用於批量查詢。在Hadoop中進行批量查詢已經有一段時間了,並且已經很成熟。

對於交互式查詢DrillImapala可以使用。請注意,Drill開發剛剛開始,處於孵化階段。而Imapala剛剛由Cloudera宣佈。對於實時引擎,這裏是some有趣的info

請注意,有很多其他開源框架可能符合要求,但這裏只提到其中的幾個。基於詳細的需求分析和不同框架的優缺點,必須選擇合適的框架。

+0

謝謝Praveen,讓我看看你的鏈接,並回到更多的問題。 – Rushik