我想知道Hadoop批量分析與Hadoop實時分析之間的區別。Hadoop批量分析與Hadoop實時分析有什麼區別
E.g Hadoop real time analytics
可以使用Apache Spark
完成,而Hadoop batch analytics
可以使用Map reduce
編程完成。
此外,如果實時分析是更受歡迎的分析,那麼批處理分析需要什麼?
謝謝
我想知道Hadoop批量分析與Hadoop實時分析之間的區別。Hadoop批量分析與Hadoop實時分析有什麼區別
E.g Hadoop real time analytics
可以使用Apache Spark
完成,而Hadoop batch analytics
可以使用Map reduce
編程完成。
此外,如果實時分析是更受歡迎的分析,那麼批處理分析需要什麼?
謝謝
批處理意味着你處理迄今收集的aaaaaaall數據。實時意味着您在進入系統時處理數據。兩者都不是「首選」。
Hadoop批量分析和實時分析完全不同,它取決於你的用例,你想要什麼,例如 - 你有大量的行數據集,你只想從該數據集中提取少量信息,信息可能基於一些計算/趨勢等,這可以通過批處理來完成,例如找到自過去50年以來的最低溫度。
雖然實時分析,意味着您需要儘快獲得期望的輸出,就像您的朋友在推特上發佈推文一樣,只要您的朋友推送即可獲得推文。
讓我來解釋用於批處理的用例&真正的處理。
批處理:
在股市應用程序,你必須要求提供以下彙總數據每天
對於每個存貨,成功訂單總數&個失敗訂單
等
這裏需要24小時股市的數據來生成這些報告。
**天氣應用:**
所有國家在世界上所有的地方保存天氣報告。對於Newyork或美國等國家的特定地點,查找自1900年以來最熱和最冷的一天。此查詢需要大量輸入數據集,這需要在數千個noudes上進行處理。
您可以使用Hadoop Map Reduce job
提供以上總結。您可能需要處理存儲在Hadoop集羣中的4000多臺服務器上的Peta字節數據。
實時分析:
另一種使用情況,您登錄到社交網站,如Facebook或Twitter。你的朋友在你的牆上張貼了一條消息,或在推特上發了推文。你必須實時獲得這些通知。
當您訪問喜歡的網站Booking.com預訂酒店,你會得到像X用戶實時通知正在查看這家酒店等,這些通知在實時生成。
在上面使用的情況下,系統應該處理的數據流和產生的,而不是等待一天的數據實時地通知給用戶。 Spark流處理爲處理這些類型的場景提供了極好的支持。
星火使用中 - 內存處理更快的查詢執行,但它不可能總是使用 - 內存數據的餓鬼字節。 Spark可以處理TB級數據,Hadoop可以處理Peta數據。
我會考慮股市實時。股票交易,波動的價格等 –
只是爲了展示用於生成彙總報告的peta字節數據,我已經將它用於批處理示例。 –
Twitted?這是推文。你會得到推文,而不是twits –