以HDC格式在HDFS中存儲avro數據，不使用HIVE

將存儲avro數據與ORC和Parquet格式進行比較，我成功地使用「com.twitter」％「parquet-avro」將Avro數據存儲到實木複合地板上％「1.6.0」，但無法找到任何信息或API以ORC格式存儲avro數據。以HDC格式在HDFS中存儲avro數據，不使用HIVE

ORC是否僅與Hive緊密結合？

感謝 subahsh

來源

2015-12-14 subhash padala

更多的細節，你能澄清一下你的意思是''com.twitter「％」parquet-avro「％」1.6.0「'？它看起來像是依賴於我，而不是一種轉換數據的方式。 –

此外，我還沒有測試過，但我建議使用Pig - 你可以使用'AvroStorage'讀入數據，並使用'OrcStorage'寫入。這樣你就不需要中間表了，如果運氣好的話，你也不必指定列。 –

你還沒說你用星火，但問題是標籤，所以我假定你。

的ORC文件格式是目前嚴重依賴於HiveContext的火花（我認爲只有在1.4及以上可用），但如果你創建一個蜂巢情況下，你應該能夠編寫dataframes到ORC文件在同一是你可以用實木複合地板，例如：

import org.apache.spark.sql._ 
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) 
val df = sqlContext.read.avro(("/input/path") 
df.write.format("orc").save("/path/to/use")

如果你是通過星火dataframes API readingthe Avro的數據，那麼這就是你應該需要的，但有一個在Hortonworks blog

來源

2015-12-14 15:06:51

感謝Ewan對正確的方向和依賴關係將有所幫助。 https://github.com/databricks/spark-avro –

以HDC格式在HDFS中存儲avro數據，不使用HIVE

回答

相關問題