2014-09-24 37 views
0

我已經收到使用jnetpcap的實時數據包。任何人都可以請告訴我如何使用火花流來從實時數據包中提取數據包標頭和其他細節?使用火花流處理實時數據包

+0

我在我的代碼中有以下行。 val lines = KafkaUtils.createStream(ssc,zkQuorum,group,topicpMap).map(_._ 2)如何將此流「行」反序列化爲原始對象?通過將類擴展到可串行化來實現kafka生產者的串行性 – user3823859 2014-09-30 16:38:35

回答

1

如果您已通過spark streaming programming guide閱讀,您會發現可以爲您的流實施自定義Receiver。但是,實際指南中只有很少的示例,您必須閱讀頁面底部指定的示例和javadoc。

This project是一個自定義接收器,其基本上是:

  1. 擴展Receiver
  2. 器具onStartonStop方法
  3. 呼叫store方法與所述數據通過所述流

它應該如此簡單。包的哪些部分需要解析,以及您自己的決定可能如何。根據編程指南,您只需在源代碼級提供軟件包並編寫自己的變壓器等。

+0

我使用jnetpcap庫在接收器中收到了數據包。但是如何在每個數據包上使用RDD操作提取數據包細節? – user3823859 2014-09-25 09:18:45

+0

這是通用流處理的東西。您的接收器只是在可能的情況下存儲原始數據,然後變壓器接收原始格式的數據並將其轉換爲您接下來需要的任何步驟。這個問題是關於如何編寫Receiver部分或jnetpcap軟件包的結構? – 2014-09-25 09:46:34

+0

問題是如何轉換原始格式的數據? – user3823859 2014-09-29 04:20:10