如何使用Spark Scala保存並加載rdd到遠程配置單元？

-2

現在我正在使用sqoop將我的數據寫入rdbms。所以它將數據存儲到hdfs然後存儲到rdbms。有什麼方法可以將rdd直接存儲到Hive？如何使用Spark Scala保存並加載rdd到遠程配置單元？

2017-05-08 Aswathy

是的，你可以寫RDD蜂巢，寫RDD蜂巢的方法之一是RDD轉化爲Df的，然後saveTableAs（），如下

import org.apache.spark.sql.hive.HiveContext 

val hiveContext = new HiveContext(sc) 

import hiveContext.implicits._ 

//read data perform some transformation 

val myDF = myRdd.toDF("column names")

然後你就可以創建一個表和轉儲數據

myDF.write.saveAsTable("tableName") 

//with save mode 
myDF.write().mode(SaveMode.Overwrite).saveAsTable("tableName")

您可以添加保存模式如上 SaveModes是追加，忽略，覆蓋，ErrorIfExists

來源

2017-05-08 07:55:29

謝謝Shankar。如果我想將rdd存儲在遠程Hive中，我如何連接到該配置單元並使用特定的數據庫 – Aswathy

我希望這有助於http://stackoverflow.com/questions/39997224/how-to-連接到遠程配置單元 - 服務器 - 從火花。如果這有幫助，請接受答案。 –

如何在scala中使用類似DBOutputFormat的東西 – Aswathy

如何使用Spark Scala保存並加載rdd到遠程配置單元？

回答

相關問題