CSV到RDD到Apache Spark中的Cassandra商店

我有一堆數據在一個csv文件中，我需要通過spark將它們存儲到Cassandra中。我爲此使用了cassandra連接器的火花。通常存儲到卡桑德拉，我創建一個POJO，然後將其序列化到RDD然後店：CSV到RDD到Apache Spark中的Cassandra商店

Employee emp = new Employee(1 , 'Mr', 'X'); 
JavaRDD<Employee> empRdd = SparkContext.parallelize(emp);

最後，我寫這卡桑德拉如：

CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp");

這是好的，但我的數據存儲在csv文件中。每行代表cassandra數據庫中的一個元組。

我知道我可以讀取每一行，拆分列，使用列值創建對象，將其添加到列表中，最後序列化整個列表。我想知道是否有更簡單更直接的方法來做到這一點？

2014-10-16 Aneesh

那麼你可以只使用SSTableLoader for BulkLoading並完全避免火花。如果你依靠火花，那麼我認爲你是運氣不好......雖然我不知道比逐行閱讀和分開線條更容易...更多...

2014-10-16 16:39:43 elmalto

回答