所以我想從一個目錄讀取csv文件,作爲一個pyspark數據幀,然後將它們追加到單個數據幀中。 沒有在pyspark中找到替代方案,這是我們在熊貓中的做法。如何在Pyspark中定義一個空的數據框並在其中添加相應的數據框?
例如,在熊貓,我們這樣做:
files=glob.glob(path +'*.csv')
df=pd.DataFrame()
for f in files:
dff=pd.read_csv(f,delimiter=',')
df.append(dff)
在Pyspark我都試過,但沒有成功
schema=StructType([])
union_df = sqlContext.createDataFrame(sc.emptyRDD(),schema)
for f in files:
dff = sqlContext.read.load(f,format='com.databricks.spark.csv',header='true',inferSchema='true',delimiter=',')
df=df.union_All(dff)
會很感激的任何幫助。
感謝