2
有沒有人有經驗:AWS和Google雲服務之間的流日誌數據延遲是什麼?
- 發送已流/微成批的日誌數據,從亞馬遜到BigQuery的處理,並且可以在任何延遲問題闡明?
- 發送(微成批的)從谷歌的數據流記錄到亞馬遜(室壁運動/ S3/DynamoDB)
有人可以對延遲提供的信息?
感謝
有沒有人有經驗:AWS和Google雲服務之間的流日誌數據延遲是什麼?
有人可以對延遲提供的信息?
感謝
在問題1,我相信你感興趣的BigQuery擷取延遲。每Streaming Data into BigQuery,流式數據可用於在第一個數據流插入表格的幾秒鐘內進行實時分析。此延遲較低,但由於從亞馬遜羣集到BigQuery API的原始網絡通信,它可能會支配任何延遲。
在問題2中,您可能對Dataflow本身的延遲感興趣 - 假設數據到達數據流傳輸管道(例如,通過PubSub,實時,你正在處理它,並最終寫入亞馬遜,你對結果回來的速度感興趣。
這很大程度上取決於流水線的窗口結構(例如,如果將數據窗口化爲5分鐘的窗口,數據將相應地緩衝)。如果你根本不做任何窗口化處理,Dataflow本身引入的延遲應該很低(亞秒)。有關如何實現的詳細信息,請參閱Dataflow的流引擎基於的the MillWheel paper。
Thx爲您的答覆。 – FZF
我實際上想知道,如果在Google雲上處理源自亞馬遜雲上的數據(無窗口),然後將其發回亞馬遜,將會導致實時用例無法接受的明顯延遲(可以在網頁上提供促銷推薦例如),關注主要圍繞2個雲之間的往返轉換時間。 – FZF
網絡延遲可能主要由您所在的亞馬遜和Google雲的哪個區域決定,我建議只用手測量它,看看它是否足夠好。數據流通常會引入少量的額外延遲,儘管它在技術上並不是一個硬性實時系統,偶爾會有延遲打嗝的可能。 – jkff