2017-08-30 42 views
0
df = spark.createDataFrame([(1.0,100.0, float('nan')), (float('nan'),100.0, 2.0)], ("a", "b")) 
df.select(F.max(df.a)).show() 

結果是:Pyspark獲得最大的價值排除NaN的

+------+ 
|max(a)| 
+------+ 
| NaN| 
+------+ 

我不想NaN的,我該怎麼辦?

回答

0

你可以做

df.na.fill(0) 

你申請你max過濾器之前