我想從大量交易數據中找出信息數據模式。大量交易數據信息模式生成
通常,我的數據是具有定義良好的列的記錄集(例如發件人,收件人,金額,貨幣地址等 - 我有大約40-50個不同的列),數據量將是數百萬(可能是100萬)記錄和我的目標是從這樣產生信息交易模式 - 誰購買特定項目最多,交易量最高的交易接受者,費用模式,誰獲得更多來自同一個另一個發件人的交易等。
此前我打算加載關係數據庫(Oracle/MySQL)中的數據並編寫複雜的SQL來獲取這些信息,但通過在我的概念證明期間查看數據量,它似乎沒有太大的可擴展性。
我試圖獲得更多關於使用Hadoop等進行分佈式數據處理的信息。我剛開始閱讀Hadoop,直到我初步瞭解Hadoop非常適合未經過處理的數據處理,並且可能對關係數據處理沒有多大用處。
任何關於開源技術的指針/建議,我可以快速嘗試。
謝謝Praveen,讓我看看你的鏈接,並回到更多的問題。 – Rushik