2017-10-11 145 views
0

我知道Spark Spark使用微量批處理數據,但在某些情況下,處理時間不到一秒鐘。我的問題是「不能把它稱爲純實時處理,而不是在那個實驗室裏進行實時處理?」爲什麼火花流被稱爲接近實時?

回答

1

我想說,我們只能在收集數據並將其直接推送到儀表板或系統時進行實時指標,警報和優化,而無需任何ETL過程,實時目的是,主要是速度。

每當有批次的流程提取歷史趨勢或基準時,儘管時間不到一秒,但不是實時的,而是接近它,這是因爲他們談論的是接近實時的。

所以,要回答你的問題,我會說不,因爲你正在進行配料和加工,所以接近實時。

我希望它有幫助。

+0

謝謝@Juan,它清除了疑問 – dalonlobo

+1

我剛剛問過我們的大數據專家(他在我的右側工作),他說大數據Spark Streaming被認爲是近實時的,因爲他的精度接近於毫秒以及Storm等框架或新的Spark(結構化流媒體),您可以以毫微秒的精度工作,這是大數據中的純粹主義者所稱的實時。 – Juan

1

火花流將所述數據流分成的X秒批次稱爲Dstreams,其內部是RDDS,一個用於每批間隔的序列。每個RDD都包含在批處理間隔期間收到的記錄,因爲其小批量處理過程幾乎不實時。

+0

謝謝@vaquarkhan – dalonlobo