0
我使用Spark插入cassandra。如何知道行數使用Spark插入cassandra
CassandraJavaUtil.javaFunctions(newRDD)
.writerBuilder("dmp", "dmp_user_user_profile_spark1", mapToRow(UserSetGet.class)).saveToCassandra();
logger.info("DataSaved");
我的問題是,如果RDD有5k行,並由於某種原因插入卡桑德拉,作業失敗。
會不會有回滾的插入出5K
這一點,如果沒有,我怎麼會知道多少行實際插入,這樣我可以從失效行重新開始我的工作行。
嗨Abhishek謝謝你的答案,但這裏的問題是在表中有一列app_count,每增加一個更新。所以我需要知道失敗發生時更新了哪些行。 –
更新了答案。或者你可能應該引入一個額外的列來跟蹤cassandra中的這種東西,可以是Date或甚至整數列。 –
嗨Abhishek,我做了完全相同的事情,即將RDD拆分成固定大小的長度,但我的問題是,它會在插入時出現中途失敗,例如5000只有2000個插入,然後失敗。 。我的表是巨大的,所以我試圖引入一個額外的列(如AutoIncrement int),使用zipWithIndex。無論如何感謝您的答案 –