目前我們有一個數據流程,其中我們有一個GroupByKey
,但DoPar
在group-by之後每個鍵得到太多的值,我們想知道是否有這個好的解決方案。從我可以告訴的是,沒有辦法設置每個窗口的最大數值。限制每個鍵值的數量
現在我們正在探索3個選項:
- 較小的窗口 - 我們認爲我們可能仍然有這個問題,因爲該事件可能出現在時間聚集在一起。
- 在每個鍵上添加一個隨機值來分割鍵 - 這也不是理想的,因爲當我們有更少的事件進入時,每個鍵的值都會太少。當事件數量呈指數增長時,我們也無法調整分區數量。
- 一些花哨的觸發或使用組合器 - 可能是最好的解決方案,但不知道如何做到這一點。
有沒有一個標準的方法或最佳做法呢?