2014-10-16 29 views
1

我有一堆數據在一個csv文件中,我需要通過spark將它們存儲到Cassandra中。 我爲此使用了cassandra連接器的火花。 通常存儲到卡桑德拉,我創建一個POJO,然後將其序列化到RDD然後店:CSV到RDD到Apache Spark中的Cassandra商店

Employee emp = new Employee(1 , 'Mr', 'X'); 
JavaRDD<Employee> empRdd = SparkContext.parallelize(emp); 

最後,我寫這卡桑德拉如:

CassandraJavaUtil.javaFunctions(empRdd, Emp.class).saveToCassandra("dev", "emp"); 

這是好的,但我的數據存儲在csv文件中。每行代表cassandra數據庫中的一個元組。

我知道我可以讀取每一行,拆分列,使用列值創建對象,將其添加到列表中,最後序列化整個列表。我想知道是否有更簡單更直接的方法來做到這一點?

回答

0

那麼你可以只使用SSTableLoader for BulkLoading並完全避免火花。 如果你依靠火花,那麼我認爲你是運氣不好......雖然我不知道比逐行閱讀和分開線條更容易...更多...