2016-07-15 89 views
-3

我參與與2個階段的一個項目,我想知道如果這是一個大數據項目(我在這個領域的新手)這種情況是一個大數據項目嗎?

在第一個階段,我有這樣的場景:

  • 我有收集數據的巨大入賬金額
  • 我需要把它們存放
  • 我需要建立一個Web應用程序,顯示數據給用戶

在第二p我需要分析存儲的數據並建立報告並對其進行分析

有關數據量的一些示例;在有一天我可能需要收集和存儲各地86.400.000紀錄

現在我想以這種架構:

  • 到colect數據的一些異步TECNOLOGY如Active MQ和MQTT協議
  • 存儲數據我一直在思考一個的NoSQL數據庫(蒙戈,HBase的或其他)

現在,這將解決我的第一個階段的問題

但第二階段呢?

我在想一些大數據SW(如hadoop或spark)和一些機器學習軟件;這樣我就可以從數據庫中檢索數據,進行分析並以建立良好的報告,並做一些具體分析

我想知道,這是最好的辦法

建造或以更好的方式存儲你將如何解決這種情況?我以正確的方式嗎?

謝謝

安傑洛

+0

http://stackoverflow.com/questions/35560823/what-is-big-data-what-c​​lassifies-as-big-data/35561146#35561146 –

回答

0

大數據的定義不同,從用戶到用戶。對於谷歌100 TB可能是一個小數據,但對我來說,這是大數據,因爲可用硬件商品的差異。例如 - > Google可以擁有50000個節點的集羣,每個節點具有64 GB Ram,用於分析100 Tb數據,因此對於他們來說這不是大數據。但是我不能擁有50000個節點的集羣,所以對我來說這是大數據。

你的情況也是一樣,如果有商品硬件可用,你可以繼續使用hadoop。由於您沒有提及每天生成的文件大小,因此我無法確定您的案例。但hadoop總是一個很好的選擇來處理你的數據,因爲像spark這樣的新項目可以幫助你在更短的時間內處理數據,而且它還給你實時分析的功能。所以根據我的說法,如果你可以使用spark或hadoop,那麼你可以使用你的數據。此外,既然你想使用nosql數據庫,你可以使用hadoop提供的hbase來存儲你的數據。

希望這回答你的問題。

+0

嗯,這正是我在想什麼......但我我想知道:activeMQ + MQTT是否足以收集海量數據(當天有8600萬條記錄意味着大約1000條記錄)?我正在考慮使用HBase + Hadoop + Hive + mohout(與Samsara),我想我的方式正確.... –

1

正如siddhartha回答,您的項目是否可以被標記爲bigdata項目,取決於您的項目的上下文和buiseness域/案例。

即將到來的技術堆棧中,您提到的每種技術都有特定的用途。例如,如果您有結構化數據,則可以使用任何具有查詢支持的新時代數據庫。 NoSQL數據庫有不同的風格(柱面,基於文檔,鍵值等),因此技術選擇依賴於您擁有的數據和用例。我建議你在接受最終通話前做一些POC和技術分析。

相關問題