2016-02-13 114 views
0

我正在使用火花流,我在使用Flume接收器。清潔或過濾數據

流式事件由許多我不需要的字段組成。所以,我想過濾掉。

我只是想檢查哪些是更好的地方來過濾數據:

  • 應用水槽攔截器來改變數據,然後給它的火花,或流媒體。
  • 在Spark Streaming中對DStream應用過濾。

在此先感謝。

回答

1

這兩個選項都可以使用。取決於兩件事你可以決定 -

  1. Flume攔截器是更多的解耦方式。
  2. Spark流將會更快。

如果你每秒接收到的事件數量超過我所說的火花流量,如果不是這種情況,那就選擇flume攔截器。