我在Spark中很新,我一直在嘗試將一個Dataframe轉換爲Spark中的parquet文件,但是我還沒有成功。 documentation表示我可以使用write.parquet函數來創建文件。然而,當我運行該腳本它表明我:AttributeError的:「RDD」對象有沒有屬性「寫」如何使用Spark(pyspark)編寫地板文件?
from pyspark import SparkContext
sc = SparkContext("local", "Protob Conversion to Parquet ")
# spark is an existing SparkSession
df = sc.textFile("/temp/proto_temp.csv")
# Displays the content of the DataFrame to stdout
df.write.parquet("/output/proto.parquet")
你知道如何使這項工作?
我使用的Spark版本是爲Hadoop 2.7.3構建的Spark 2.0.1。
'sc.textFile()'返回'RDD'。 – mrsrinivas
是的,我剛剛意識到它。我只是改成了SparkSession而不是SparkContext – ebertbm