我要問,如果你對我怎麼可以在 pyspark當我使用。加入(註明很多條件的任何想法)pyspark加入多個條件
例子: 與蜂巢:
query= "select a.NUMCNT,b.NUMCNT as RNUMCNT ,a.POLE,b.POLE as RPOLE,a.ACTIVITE,b.ACTIVITE as RACTIVITE FROM rapexp201412 b \
join rapexp201412 a where (a.NUMCNT=b.NUMCNT and a.ACTIVITE = b.ACTIVITE and a.POLE =b.POLE )\
但在pyspark我不知道如何使它,因爲以下內容:
df_rapexp201412.join(df_aeveh,df_rapexp2014.ACTIVITE==df_rapexp2014.ACTIVITE and df_rapexp2014.POLE==df_aeveh.POLE,'inner')
不起作用!
你能PLZ粘貼DataFrame.join錯誤信息?或者嘗試在RDD中使用keyBy/join,它支持很好的等連接條件。 –