2016-11-03 396 views
2

我試圖做的是使用XML解析器來解析字符串。如何用scala中的spark xml解析器解析XML中的字符串?

我只覺得這種方式來解析使用Spark在斯卡拉:

val df = sqlContext 
    .read 
    .format("com.databricks.spark.xml") 
    .option("rowTag", "book") 
    .load("books.xml") 

我需要解析爲一個字符串,而不是一個文件

那麼,有沒有任何選項來加載字符串(不是文件路徑)?

謝謝!

回答

0

從像下面的字符串創建RDD,

val xmlStringRDD = sc.parallelize(List("Your xml string")) 

然後使用RDD如下

val df = new XmlReader().xmlRdd(spark.sqlContext(), xmlStringRDD); 

其中 - 火花是火花會話(從火花2.0+)。

請注意:討論這xmlRdd方法被棄用,因此,對於 現在的作品,可能不會在未來。