Hadoop批量分析與Hadoop實時分析有什麼區別

我想知道Hadoop批量分析與Hadoop實時分析之間的區別。Hadoop批量分析與Hadoop實時分析有什麼區別

E.g Hadoop real time analytics可以使用Apache Spark完成，而Hadoop batch analytics可以使用Map reduce編程完成。

此外，如果實時分析是更受歡迎的分析，那麼批處理分析需要什麼？

謝謝

批處理意味着你處理迄今收集的aaaaaaall數據。實時意味着您在進入系統時處理數據。兩者都不是「首選」。

2016-02-11 20:55:04 facha

Hadoop批量分析和實時分析完全不同，它取決於你的用例，你想要什麼，例如 - 你有大量的行數據集，你只想從該數據集中提取少量信息，信息可能基於一些計算/趨勢等，這可以通過批處理來完成，例如找到自過去50年以來的最低溫度。

雖然實時分析，意味着您需要儘快獲得期望的輸出，就像您的朋友在推特上發佈推文一樣，只要您的朋友推送即可獲得推文。

2016-02-12 05:37:27 subodh

Twitted？這是推文。你會得到推文，而不是twits –

讓我來解釋用於批處理的用例&真正的處理。

批處理：

在股市應用程序，你必須要求提供以下彙總數據每天

這裏需要24小時股市的數據來生成這些報告。

**天氣應用：**

所有國家在世界上所有的地方保存天氣報告。對於Newyork或美國等國家的特定地點，查找自1900年以來最熱和最冷的一天。此查詢需要大量輸入數據集，這需要在數千個noudes上進行處理。

您可以使用Hadoop Map Reduce job提供以上總結。您可能需要處理存儲在Hadoop集羣中的4000多臺服務器上的Peta字節數據。

實時分析：

另一種使用情況，您登錄到社交網站，如Facebook或Twitter。你的朋友在你的牆上張貼了一條消息，或在推特上發了推文。你必須實時獲得這些通知。

當您訪問喜歡的網站Booking.com預訂酒店，你會得到像X用戶實時通知正在查看這家酒店等，這些通知在實時生成。

在上面使用的情況下，系統應該處理的數據流和產生的，而不是等待一天的數據實時地通知給用戶。 Spark流處理爲處理這些類型的場景提供了極好的支持。

星火使用中 - 內存處理更快的查詢執行，但它不可能總是使用 - 內存數據的餓鬼字節。 Spark可以處理TB級數據，Hadoop可以處理Peta數據。

2016-02-12 13:24:51

我會考慮股市實時。股票交易，波動的價格等 –

只是爲了展示用於生成彙總報告的peta字節數據，我已經將它用於批處理示例。 –

回答