我不斷有數據從外部源寫入cassandra。用火花流傳輸cassandra中最新的數據
現在,我使用的火花流連續讀取卡桑德拉這個數據用下面的代碼:
然而,下面一行:
val cassandraRDD = ssc.cassandraTable("keyspace2", "feeds")
需要整個表數據從cassandra每次。現在只需將最新的數據保存到表格中。
我想要做的是火花流只讀取最新的數據,即在其上一次讀取後添加的數據。
我該如何做到這一點?我試圖谷歌這一點,但有關這方面的文件很少。我使用spark 1.4.1
,scala 2.10.4
和cassandra 2.1.12
。
謝謝!
編輯:
建議的重複問題(由我問)不是一個重複,因爲它談論連接火花流和卡桑德拉和這個問題是關於只流的最新數據。順便說一句,通過使用我提供的代碼可以從cassandra流式傳輸。但是,它每次都需要整個表格,而不僅僅是最新的數據。
的可能的複製[如何連接火花流與卡桑德拉?](http://stackoverflow.com/questions/34993290/how-to-connect-spark-streaming-with-cassandra) – maasg
目前不可能從Cassandra流式傳輸。看到這個:http://stackoverflow.com/questions/34993290/how-to-connect-spark-streaming-with-cassandra – maasg
公頃。我只是注意到,你問這個問題。恐怕答案還沒有改變。 – maasg