0
我一直試圖通過火花流從hadoop文件系統讀取多個.gz
文件。有沒有可能做到這一點?如果是的話,你能否提供給我一個解決方案如何通過火花流處理多個.gz文件?
我一直試圖通過火花流從hadoop文件系統讀取多個.gz
文件。有沒有可能做到這一點?如果是的話,你能否提供給我一個解決方案如何通過火花流處理多個.gz文件?
基於時間戳的Spark Streaming進程文件,即只有那些在火花流開始之後被添加到特定路徑的文件被處理。 Spark流不處理在流上下文開始之前放置的文件。
簡單地說,流式處理不在舊數據上的實時數據。