閱讀gz.parquet文件

你好，我需要從gz.parquet文件讀取數據，但不知道如何？試圖與黑斑羚，但我得到了相同的結果parquet-tools cat沒有表結構。閱讀gz.parquet文件

上傳：任何改善火花代碼的建議是最受歡迎的。

我有以下拼花文件gz.parquet如由Twitter =>水槽=>卡夫卡=>火花流=>蜂房/ gz.parquet文件）創建的數據管路的結果。對於水槽劑我使用agent1.sources.twitter-data.type = org.apache.flume.source.twitter.TwitterSource

火花碼解隊列中的數據從卡夫卡和在蜂房存儲如下：

val sparkConf = new SparkConf().setAppName("KafkaTweet2Hive") 

val sc = new SparkContext(sparkConf) 

val ssc = new StreamingContext(sc, Seconds(2)) 
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)//new org.apache.spark.sql.SQLContext(sc) 

// Create direct kafka stream with brokers and topics 
val topicsSet = topics.split(",").toSet 
val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers) 
val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
    ssc, kafkaParams, topicsSet) 

// Get the data (tweets) from kafka 
val tweets = messages.map(_._2) 


//adding the tweets to Hive 

tweets.foreachRDD { rdd => 


    val hiveContext = SQLContext.getOrCreate(rdd.sparkContext) 

    import sqlContext.implicits._ 


    val tweetsDF = rdd.toDF() 
    tweetsDF.write.mode("append").saveAsTable("tweet") 

}

當運行火花流應用它存儲的數據作爲gz.parquet在HDFS文件：/用戶/蜂巢/倉庫目錄如下：

[[email protected] /]# hdfs dfs -ls /user/hive/warehouse/tweets 
Found 469 items 
-rw-r--r-- 1 root supergroup   0 2016-03-30 08:36 /user/hive/warehouse/tweets/_SUCCESS 
-rw-r--r-- 1 root supergroup  241 2016-03-30 08:36 /user/hive/warehouse/tweets/_common_metadata 
-rw-r--r-- 1 root supergroup  35750 2016-03-30 08:36 /user/hive/warehouse/tweets/_metadata 
-rw-r--r-- 1 root supergroup  23518 2016-03-30 08:33 /user/hive/warehouse/tweets/part-r-00000-0133fcd1-f529-4dd1-9371-36bf5c3e5df3.gz.parquet 
-rw-r--r-- 1 root supergroup  9552 2016-03-30 08:33 /user/hive/warehouse/tweets/part-r-00000-02c44f98-bfc3-47e3-a8e7-62486a1a45e7.gz.parquet 
-rw-r--r-- 1 root supergroup  19228 2016-03-30 08:25 /user/hive/warehouse/tweets/part-r-00000-0321ce99-9d2b-4c52-82ab-a9ed5f7d5036.gz.parquet 
-rw-r--r-- 1 root supergroup  241 2016-03-30 08:25 /user/hive/warehouse/tweets/part-r-00000-03415df3-c719-4a3a-90c6-462c43cfef54.gz.parquet

從_metadata文件的模式如下：

[[email protected] /]# parquet-tools meta hdfs://quickstart.cloudera:8020/user/hive/warehouse/tweets/_metadata 
creator:  parquet-mr version 1.5.0-cdh5.5.0 (build ${buildNumber}) 
extra:   org.apache.spark.sql.parquet.row.metadata = {"type":"struct","fields":[{"name":"tweet","type":"string","nullable":true,"metadata":{}}]} 

file schema: root 
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 
tweet:   OPTIONAL BINARY O:UTF8 R:0 D:1

而且，如果我的數據加載到數據幀中的火花，我得到df.show'的`輸出如下：

+--------------------+ 
|    tweet| 
+--------------------+ 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|ڕObjavro.sch...| 
|��Objavro.sc...| 
|ֲObjavro.sch...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|֕Objavro.sch...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
|��Objavro.sc...| 
+--------------------+ 
only showing top 20 rows

如何過我想看到的tweet爲純文本？

來源

2016-03-30 Mouzzam Hussain