2017-07-03 93 views
0

有兩種壓縮文件格式供spark使用。一個是實木複合地板,它很容易閱讀:如何使用pyspark讀取orc文件

from pyspark.sql import HiveContext 
hiveCtx = HiveContext(sc) 
hiveCtx.parquetFile(parquetFile) 

但是用於ocr文件。我無法找到一個很好的例子來向我展示如何使用pyspark閱讀。

+0

你是什麼意思有沒有例子?你是真的搜索ORC,還是改爲「ocr」(這是別的)。 https://hortonworks.com/blog/bringing-orc-support-into-apache-spark/ –

+0

對不起,它應該是獸人。由於orc文件位於hdfs上,因此它是 – Howardyan

回答

0

那麼,有兩種方式:

星火2.x

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned') 

星火1.6

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned') 
+0

。我使用hiveCtx.read.orc(「hdfs:// aaa/bbb/ccc」)。 消息告訴我:「malformed orc data」 但我使用sql函數: hiveCtx.sql(「select * from ccc」) 它的工作原理非常奇怪... – Howardyan