我正嘗試在Scala上使用Spark將數據寫入Cassandra表。有時火花任務在兩者之間失敗,並且有部分寫入。當新任務從第一個開始時,Spark是否會回滾部分寫入。向Cassandra插入數據的Spark作業
1
A
回答
0
不,但如果我是對的,你可以重新處理你的數據。這將覆蓋部分寫入。在寫入Cassandra時,當您嘗試使用相同主鍵插入數據時,會使用一種更新(upsert)。
2
否.Spark(和Cassandra就此而言)不會基於整個任務執行提交樣式插入。這意味着你的寫作必須是冪等的,否則你最終會出現奇怪的行爲。
相關問題
- 1. Spark將數據插入Cassandra
- 2. 向cassandra插入大量數據
- 3. 使用Spark + Cassandra利用數據局部性執行作業
- 4. Java中使用嵌入式Cassandra服務器測試Cassandra-Spark作業的示例
- 5. 使用spark將數據寫入cassandra
- 6. 使用Spark DataFrame將數據插入Cassandra表
- 7. Spark流不會將數據插入到Cassandra
- 8. Spark Streaming - Java - 從Kafka插入JSON到Cassandra
- 9. 如何知道行數使用Spark插入cassandra
- 10. 更新\在Spark SQL中插入Cassandra計數器值
- 11. 將數據插入Cassandra時出錯
- 12. 在Cassandra中插入數據DB
- 13. 無法將數據插入Cassandra./
- 14. Spark-Cassandra VS Spark-Elasticsearch
- 15. 將少量數據寫入Spark的Cassandra表中
- 16. Spark-cassandra-connector:toArray不起作用
- 17. 使用Spark將數據保存到Cassandra
- 18. Spark作業服務器中的Spark作業「java.lang.NoClassDefFoundError:org/apache/spark/sql/SQLContext」的錯誤
- 19. 使用apache spark創建cassandra插入的timeuuid
- 20. 向contacts2.db插入數據
- 21. Spark DataFrame和Cassandra
- 22. Spark - Cassandra連接
- 23. Spark-Scala與Cassandra
- 24. 如何使用Spark Cassandra連接器插入TimeUUID和TimeStamp?
- 25. 使用Spark Scala插入時間戳到Cassandra
- 26. 插入排序作業
- 27. 延遲作業批插入
- 28. 可以將Spark作業的輸出用作另一個Spark作業的輸入嗎?
- 29. 以數據庫反向插入數據
- 30. 向數據庫中插入空數據
有關如何使它們具有冪等性的任何輸入?我面臨的問題與cassandra表中的重複記錄與任務之間的故障之間,並從頭開始重新啓動任務 –
大家好,任何投入就此? –
確保你沒有寫入重試時改變的內容。警惕非冪等操作(添加到列表和地圖)。基本冪等事物。無論代碼執行多少次,您都應該保持一致。 – RussS