0
當我拿到表PySparkSpark Dataframe是否支持針對數據庫的轉換?
df1 = session.read.jdbc(url=self.url,
table=self.table,
properties={"driver": self.driver,
"user": self.user,
"password": self.password})
或
df1 = sql.read.format("com.databricks.spark.redshift")
.options(url=self.url,
query=self.table,
user=self.user,
password=self.password,
tempdir="s3://path/data/").load()
,然後我採用一些變換喜歡的聯接和GROUPBY
df3 = df1.join(df2, df1.id == df2.id)
df_res = df3.groupBy("id").agg({'tax': 'sum'})
的是,對數據庫做了什麼? 如果是,那麼在記憶中做什麼?