如何使用pyspark讀取orc文件

有兩種壓縮文件格式供spark使用。一個是實木複合地板，它很容易閱讀：如何使用pyspark讀取orc文件

from pyspark.sql import HiveContext 
hiveCtx = HiveContext(sc) 
hiveCtx.parquetFile(parquetFile)

但是用於ocr文件。我無法找到一個很好的例子來向我展示如何使用pyspark閱讀。

2017-07-03 Howardyan

你是什麼意思有沒有例子？你是真的搜索ORC，還是改爲「ocr」（這是別的）。 https://hortonworks.com/blog/bringing-orc-support-into-apache-spark/ –

對不起，它應該是獸人。由於orc文件位於hdfs上，因此它是 – Howardyan

那麼，有兩種方式：

星火2.x：

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

星火1.6：

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')

2017-07-03 14:11:17

。我使用hiveCtx.read.orc（「hdfs：// aaa/bbb/ccc」）。消息告訴我：「malformed orc data」但我使用sql函數： hiveCtx.sql（「select * from ccc」）它的工作原理非常奇怪... – Howardyan

回答