導入BLOB數據卡桑德拉

2016-12-11 125 views 0 likes

我試圖導入大型BLOB數據（約10 TB）從RDBMS（Sybase ASE的）到卡桑德拉，使用DataStax企業（DSE）5.0。導入BLOB數據卡桑德拉

是sqoop仍然推薦方式DSE 5.0做到這一點？根據發行說明（http://docs.datastax.com/en/latest-dse/datastax_enterprise/RNdse.html）：

Hadoop和Sqoop已棄用。改用Spark。（DSP-7848）

因此，我應該使用Spark SQL和JDBC數據源從Sybase加載數據，然後將數據幀保存到Cassandra表？

有沒有更好的方法來做到這一點？任何幫助/建議將不勝感激。

編輯：根據DSE文檔（http://docs.datastax.com/en/latest-dse/datastax_enterprise/spark/sparkIntro.html），不支持從火花寫入blob列。

以下星火功能和API不支持：

寫入BLOB列從星火

閱讀所有類型的列支持;但是，在序列化之前，您必須將Blob集合轉換爲字節數組。

來源

2016-12-11 Sanoj

回答

對於大型數據集的ETL來說Spark是首選，因爲它執行分佈式注入。 Oracle數據可以加載到Spark RDD或數據框中，然後使用saveToCassandra（keyspace，tablename）。卡桑德拉峯會2016有由吉姆·哈徹介紹Using Spark to Load Oracle Data into Cassandra其深入討論了這個話題，並提供了示例。

Sqoop已經過時，但還是應該在DSE 5.0工作。如果它是一次性負載，並且您已經使用Squoop進行了舒適，請嘗試一下。

來源

2016-12-11 19:17:25 Bradski

感謝。我用ETL/Spark的數據加載到HDFS。但似乎在DSE 5.0中不支持Spark的blob列。這是一次性負載，所以我可能會使用sqoop。 – Sanoj

相關問題

11. 在卡桑德拉
12. 卡桑德拉枚舉數據類型
13. 卡桑德拉數據庫模型
14. 卡桑德拉的數據存儲器
15. 卡桑德拉如何複製數據
16. 卡桑德拉數據模型
17. 卡桑德拉數據庫設計
18. 更新卡桑德拉數據庫
19. 卡桑德拉數據同步問題
20. 卡桑德拉：數據建模
21. 卡桑德拉時間系列數據
22. 卡桑德拉：建模定時數據
23. 驗證卡桑德拉數據遷移
24. 卡桑德拉數據模型設計
25. 錯誤開始斌/卡桑德拉卡桑德拉當-f
26. 卡桑德拉使用datastax卡桑德拉
27. 卡桑德拉大於「>」問題卡桑德拉
28. 春1.5.x的引導與Spring數據卡桑德拉1.5.x的是卡桑德拉不兼容2.1
29. 卡桑德拉在輸入像
30. Datastax卡桑德拉插入與ifNotExists