2015-10-07 85 views
0

在這裏,我正在讀取kinesis的數據,並將其存儲在流rdd中。RDD在SPARK的聯盟

在我處理該流rdd之前,我想從kinesis中讀取另一堆數據,並與之前的rdd進行聯合。

像這樣我想做4-5次rdd的結合,然後我想進一步處理它。

下面是我的代碼

JavaReceiverInputDStream<byte[]> stream = KinesisUtils.createStream(sc, "speng-batch-ss", "SparkStreaming", 
    "https://kinesis.us-west-2.amazonaws.com", "us-west-2", 
    InitialPositionInStream.TRIM_HORIZON, Durations.seconds(batchIntervalSeconds), 
    StorageLevel.MEMORY_AND_DISK_2(), ak, sk); 

回答

0

這聽起來像你想stream.Window(duration * 4/5)

+0

應該是什麼時間?因爲我想知道什麼時候該流將完全從kinesis讀完,以及何時它將開始讀取來自kinesis的下一串數據。 –

+0

使用窗口數據將被重疊。我想要獨特的數據。 –

+0

然後您可以將幻燈片設置爲等於窗口。 –