0
我正在使用火花流,我在使用Flume接收器。清潔或過濾數據
流式事件由許多我不需要的字段組成。所以,我想過濾掉。
我只是想檢查哪些是更好的地方來過濾數據:
- 應用水槽攔截器來改變數據,然後給它的火花,或流媒體。
- 在Spark Streaming中對DStream應用過濾。
在此先感謝。
我正在使用火花流,我在使用Flume接收器。清潔或過濾數據
流式事件由許多我不需要的字段組成。所以,我想過濾掉。
我只是想檢查哪些是更好的地方來過濾數據:
在此先感謝。
這兩個選項都可以使用。取決於兩件事你可以決定 -
如果你每秒接收到的事件數量超過我所說的火花流量,如果不是這種情況,那就選擇flume攔截器。