如何通過火花流處理多個.gz文件？

我一直試圖通過火花流從hadoop文件系統讀取多個.gz文件。有沒有可能做到這一點？如果是的話，你能否提供給我一個解決方案如何通過火花流處理多個.gz文件？

2016-12-26 Abu Tahir

-1

基於時間戳的Spark Streaming進程文件，即只有那些在火花流開始之後被添加到特定路徑的文件被處理。 Spark流不處理在流上下文開始之前放置的文件。

簡單地說，流式處理不在舊數據上的實時數據。

2016-12-26 12:28:30

回答