0
問題:
大量文件。每個文件都是10MB,包含json格式的記錄,gzip。在Spark中通過S3文件進行迭代
我的代碼片段將所有的數據加載到內存中。沒有必要這樣做。我一次只需要在內存中存儲幾小時的數據。我需要一個滑動窗口。
是否有可能將火花流應用到文件的'窗口'的想法,我將如何做到這一點?
我使用python
location = "s3://bucketname/xxxx/2016/10/1[1-2]/*/file_prefix*.gz"
rdd = sc.textFile(location)
如果您知道需要加載哪些數據,則可以使用'filter',因爲spark中的所有轉換都是惰性的,它只加載過濾的數據。 – Shankar
好吧,這真的很有幫助。儘管如此,我仍然認爲我最終還是會需要應用某種窗口。我有很多數據。它大約是300GB gzipped。 – hibernado
Spark流支持滑動窗口功能,請查看http://spark.apache.org/docs/latest/streaming-programming-guide.html#window-operations – Shankar