2
如果火花流在10秒的批處理間隔中獲得50行消息,並且在消息的40.5行之後10秒到達,其餘的落入另一個10秒間隔,則第一個40.5文本行是一個RDD首先被處理,我的用例中的前40行是有意義的,但是下一個.5行沒有意義,第二個RDD第一行.5行也是如此,我的問題甚至有效嗎?請諮詢如何處理這個問題。火花流微配料
謝謝 比爾。
如果火花流在10秒的批處理間隔中獲得50行消息,並且在消息的40.5行之後10秒到達,其餘的落入另一個10秒間隔,則第一個40.5文本行是一個RDD首先被處理,我的用例中的前40行是有意義的,但是下一個.5行沒有意義,第二個RDD第一行.5行也是如此,我的問題甚至有效嗎?請諮詢如何處理這個問題。火花流微配料
謝謝 比爾。
它不會發生。任何一個元素都被接收到,並且是當前窗口的一部分,或者它沒有,並且將被包含在下一個窗口中。基於文件的源文件需要創建原子文件,所以只加載文件的一部分是不可能的。