1
我有一堆數據在一個csv文件中,我需要通過spark將它們存儲到Cassandra中。 我爲此使用了cassandra連接器的火花。 通常存儲到卡桑德拉,我創建一個POJO,然後將其序列化到RDD然後店:CSV到RDD到Apache Spark中的Cassandra商店
Employee emp = new Employee(1 , 'Mr', 'X');
JavaRDD<Employee> empRdd = SparkContext.parallelize(emp);
最後,我寫這卡桑德拉如:
CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp");
這是好的,但我的數據存儲在csv
文件中。每行代表cassandra數據庫中的一個元組。
我知道我可以讀取每一行,拆分列,使用列值創建對象,將其添加到列表中,最後序列化整個列表。我想知道是否有更簡單更直接的方法來做到這一點?