Structured Streaming中的水印是否始終使用處理時間或事件時間或兩者同時設置?水印是基於處理時間還是事件時間或兩者兼而有之?
1
A
回答
3
在結構化流式傳輸2.2中,流式水印是根據Dataset.withWatermark運算符中的eventTime
列所定義的事件時間來跟蹤的。
withWatermark定義此數據集的事件時間水印。水印追蹤一個時間點,在這個時間點之前,我們假設沒有更多的遲到數據將要到達。
默認情況下會爲您提供事件時間水印。
但是您的初始數據集最初沒有事件時間列,因此您可以在處理時使用current_date
或current_timestamp
函數或其他方式自動生成一個。這會給你處理時間水印(基於自定義生成的列)。
在使用KeyValueGroupedDataset.flatMapGroupsWithState的最通用解決方案中,您可以預先定義策略或編寫自定義策略。這就是爲什麼他們稱它爲Arbitrary Stateful Aggregations in Structured Streaming的解決方案。
flatMapGroupsWithState適用給定函數對每個組的數據,同時保持用戶定義的每個組的狀態。
相關問題
- 1. Web服務是WSDL還是REST或兩者兼而有之?
- 2. 使用$ Map還是$ Unwind或兩者兼而有之?
- 3. 交互式時間線的複雜CSS定位 - 浮點型還是絕對型,還是兩者兼而有之?
- 4. 基於時間的事件處理
- 5. 我應該使用KnockoutJS,SilverLight還是兩者兼而有之?
- 6. Webflow與Angular還是兩者兼而有之?
- 7. Rails:format.js或format.json,或兩者兼而有之?
- 8. Silverlight或ASP.NET或兩者兼而有之?
- 9. 是否FLAG_ONLY_ALERT_ONCE損壞或錯誤,或兩者兼而有之?
- 10. 基於cron作業時間還是基於服務器時區?
- 11. 現場比賽,使用內存還是數據庫或兩者兼而有之?
- 12. Java,XML或兩者兼而有之?
- 13. web.config,app.config或兩者兼而有之?
- 14. OMNeT ++仿真速度基於時間而不是事件速率
- 15. 速度基於時間,而不是FPS
- 16. javascript事件處理時間
- 17. 在Datomic中使用事件時間而不是事務時間?
- 18. 打印間隔而不是時間戳
- 19. 會話中間件:事務中間件之前還是之後?
- 20. 你如何處理集羣中基於時間的事件?
- 21. 詢問所有基於日期/時間的事件日誌,而不是路徑
- 22. 兩個日期之間有或沒有momentjs之間的時間
- 23. 安全問題,header中的HMAC與https還是兩者兼而有之?
- 24. 我應該使用JSON econding,JavaScript編碼還是兩者兼而有之?
- 25. Cakephp條件之間的時間或如果時間列不是時間
- 26. COUNT或UNION還是兩者?
- 27. Gerrit GC vs Git GC - 或者兩者兼而有之?
- 28. 確定時間是否在兩個其他時間之間
- 29. 檢查時間是否在兩次之間(時間DataType)
- 30. Array.indexOf之間還是?