2016-04-19 26 views
1

我正在使用spark和scala,我想創建一個窗口操作的長度設置對象的數量,即窗口開始爲空,因爲流啓動對象存儲在直到它擁有10個物體,當第11個物體到達時,第一個物體被丟棄。火花流scala窗口長度的對象數

這是可能的還是我必須使用其他結構像列表或數組?文檔(http://spark.apache.org/docs/latest/streaming-programming-guide.html#window-operations)和一些Google搜索僅涉及基於時間的窗口(長度和間隔)。

預先感謝您。

回答

2

Spark流中的窗口的特徵是windowDurationslideDuration(可選)。所以,這是一個時間窗口。但你可以考慮使用Apache Flink。它支持count windows and time windows。但與Spark相比,Flink有另一種流式思想。它在到達時處理傳入事件(Spark以微批處理事件)。因此,Flink可能會有一些限制。如果它適合您的需求,請嘗試一下。

+0

謝謝您的輸入。我會看看。 – avlach

+0

應該接受這個答案:)。這裏有一個重複的問題,因爲它沒有關閉,所以我們不能引用它。 –