-2
現在我正在使用sqoop將我的數據寫入rdbms。所以它將數據存儲到hdfs然後存儲到rdbms。有什麼方法可以將rdd直接存儲到Hive?如何使用Spark Scala保存並加載rdd到遠程配置單元?
現在我正在使用sqoop將我的數據寫入rdbms。所以它將數據存儲到hdfs然後存儲到rdbms。有什麼方法可以將rdd直接存儲到Hive?如何使用Spark Scala保存並加載rdd到遠程配置單元?
是的,你可以寫RDD
蜂巢,寫RDD
蜂巢的方法之一是RDD轉化爲Df的,然後saveTableAs(),如下
import org.apache.spark.sql.hive.HiveContext
val hiveContext = new HiveContext(sc)
import hiveContext.implicits._
//read data perform some transformation
val myDF = myRdd.toDF("column names")
然後你就可以創建一個表和轉儲數據
myDF.write.saveAsTable("tableName")
//with save mode
myDF.write().mode(SaveMode.Overwrite).saveAsTable("tableName")
您可以添加保存模式如上 SaveModes是追加,忽略,覆蓋,ErrorIfExists
謝謝Shankar。如果我想將rdd存儲在遠程Hive中,我如何連接到該配置單元並使用特定的數據庫 – Aswathy
我希望這有助於http://stackoverflow.com/questions/39997224/how-to-連接到遠程配置單元 - 服務器 - 從火花。如果這有幫助,請接受答案。 –
如何在scala中使用類似DBOutputFormat的東西 – Aswathy