2015-12-14 64 views
0

將存儲avro數據與ORC和Parquet格式進行比較, 我成功地使用「com.twitter」%「parquet-avro」將Avro數據存儲到實木複合地板上% 「1.6.0」,但無法找到任何信息或API以ORC格式存儲avro數據。以HDC格式在HDFS中存儲avro數據,不使用HIVE

ORC是否僅與Hive緊密結合?

感謝 subahsh

+0

更多的細節,你能澄清一下你的意思是''com.twitter「%」parquet-avro「%」1.6.0「'?它看起來像是依賴於我,而不是一種轉換數據的方式。 –

+0

此外,我還沒有測試過,但我建議使用Pig - 你可以使用'AvroStorage'讀入數據,並使用'OrcStorage'寫入。這樣你就不需要中間表了,如果運氣好的話,你也不必指定列。 –

回答

1

你還沒說你用星火,但問題是標籤,所以我假定你。

的ORC文件格式是目前嚴重依賴於HiveContext的火花(我認爲只有在1.4及以上可用),但如果你創建一個蜂巢情況下,你應該能夠編寫dataframes到ORC文件在同一是你可以用實木複合地板,例如:

import org.apache.spark.sql._ 
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) 
val df = sqlContext.read.avro(("/input/path") 
df.write.format("orc").save("/path/to/use") 

如果你是通過星火dataframes API readingthe Avro的數據,那麼這就是你應該需要的,但有一個在Hortonworks blog

+0

感謝Ewan對正確的方向和依賴關係將有所幫助。 https://github.com/databricks/spark-avro –

相關問題