2016-02-11 91 views
1

我想知道Hadoop批量分析與Hadoop實時分析之間的區別Hadoop批量分析與Hadoop實時分析有什麼區別

E.g Hadoop real time analytics可以使用Apache Spark完成,而Hadoop batch analytics可以使用Map reduce編程完成。

此外,如果實時分析是更受歡迎的分析,那麼批處理分析需要什麼?

謝謝

回答

2

批處理意味着你處理迄今收集的aaaaaaall數據。實時意味着您在進入系統時處理數據。兩者都不是「首選」。

0

Hadoop批量分析和實時分析完全不同,它取決於你的用例,你想要什麼,例如 - 你有大量的行數據集,你只想從該數據集中提取少量信息,信息可能基於一些計算/趨勢等,這可以通過批處理來完成,例如找到自過去50年以來的最低溫度。

雖然實時分析,意味着您需要儘快獲得期望的輸出,就像您的朋友在推特上發佈推文一樣,只要您的朋友推送即可獲得推文。

+0

Twitted?這是推文。你會得到推文,而不是twits –

1

讓我來解釋用於批處理的用例&真正的處理。

批處理:

在股市應用程序,你必須要求提供以下彙總數據每天

  1. 對每隻股票,買入訂單的總數和金額都買訂單
  2. 對於每個存貨,賣出訂單總數和所有賣出訂單總數
  3. 對於每個存貨,成功訂單總數&個失敗訂單

這裏需要24小時股市的數據來生成這些報告。

**天氣應用:**

所有國家在世界上所有的地方保存天氣報告。對於Newyork或美國等國家的特定地點,查找自1900年以來最熱和最冷的一天。此查詢需要大量輸入數據集,這需要在數千個noudes上進行處理。

您可以使用Hadoop Map Reduce job提供以上總結。您可能需要處理存儲在Hadoop集羣中的4000多臺服務器上的Peta字節數據。

實時分析:

另一種使用情況,您登錄到社交網站,如Facebook或Twitter。你的朋友在你的牆上張貼了一條消息,或在推特上發了推文。你必須實時獲得這些通知。

當您訪問喜歡的網站Booking.com預訂酒店,你會得到像X用戶實時通知正在查看這家酒店等,這些通知在實時生成。

在上面使用的情況下,系統應該處理的數據流和產生的,而不是等待一天的數據實時地通知給用戶。 Spark流處理爲處理這些類型的場景提供了極好的支持。

星火使用中 - 內存處理更快的查詢執行,但它不可能總是使用 - 內存數據的餓鬼字節。 Spark可以處理TB級數據,Hadoop可以處理Peta數據。

+0

我會考慮股市實時。股票交易,波動的價格等 –

+0

只是爲了展示用於生成彙總報告的peta字節數據,我已經將它用於批處理示例。 –

相關問題