0
有兩種壓縮文件格式供spark使用。一個是實木複合地板,它很容易閱讀:如何使用pyspark讀取orc文件
from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)
但是用於ocr文件。我無法找到一個很好的例子來向我展示如何使用pyspark閱讀。
有兩種壓縮文件格式供spark使用。一個是實木複合地板,它很容易閱讀:如何使用pyspark讀取orc文件
from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)
但是用於ocr文件。我無法找到一個很好的例子來向我展示如何使用pyspark閱讀。
那麼,有兩種方式:
星火2.x:
orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')
星火1.6:
df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')
。我使用hiveCtx.read.orc(「hdfs:// aaa/bbb/ccc」)。 消息告訴我:「malformed orc data」 但我使用sql函數: hiveCtx.sql(「select * from ccc」) 它的工作原理非常奇怪... – Howardyan
你是什麼意思有沒有例子?你是真的搜索ORC,還是改爲「ocr」(這是別的)。 https://hortonworks.com/blog/bringing-orc-support-into-apache-spark/ –
對不起,它應該是獸人。由於orc文件位於hdfs上,因此它是 – Howardyan