Flink流窗口內存使用

我正在評估Flink專門爲流式窗口支持生成可能的警報。我關心的是內存使用情況，所以如果有人可以幫助，這將不勝感激。Flink流窗口內存使用

例如，該應用程序將在給定的翻滾窗口（比如說5分鐘）內從該流潛在地消耗大量的數據。在評估的時候，如果說有一百萬份符合條件的文檔，它們是否都會被加載到內存中？

的一般流程是：

producer -> kafka -> flinkkafkaconsumer -> table.window(Tumble.over("5.minutes").select("...").where("...").writeToSink(someKafkaSink)

此外，如果是描述如何內存在這些情況下，我可能忽略的人可以出來，這將是被處理了一些清晰的文檔很有幫助。

謝謝

2017-11-04 Sam

爲組窗口聚合存儲的數據量取決於聚合類型。諸如COUNT,SUM和MIN/MAX之類的許多彙總函數可以被預先集合，即它們只需要爲每個窗口存儲單個值。其他聚合函數（如MEDIAN或某些用戶定義的聚合函數）需要存儲所有值，然後才能計算其結果。

需要爲集合存儲的數據存儲在state backend中。根據狀態後端的選擇，數據可能存儲在JVM堆中的內存中或RocksDB實例中的磁盤上。

表API查詢也通過關係優化器（基於Apache Calcite）進行了優化，以便儘可能將篩選器儘可能地推送到源代碼中。根據謂詞，過濾器可能在聚合之前應用。

最後，您需要在示例查詢中查看window()和select()之間的groupBy()（請參閱docs中的示例）。

2017-11-04 20:10:51

謝謝，你提供的狀態後端鏈接似乎是我正在尋找。 – Sam

回答