2017-05-24 224 views
0

我有一個數據框,並且想要將所有具有NULL值的行放在其中一列(字符串)中。我可以很容易地得到的計數:如何在一列中刪除具有空值的行pyspark

df.filter(df.col_X.isNull()).count() 

我已經嘗試使用下面的命令將其刪除。它執行但計數仍然返回正面

df.filter(df.col_X.isNull()).drop() 

我試過不同的嘗試,但它返回'對象不可調用'錯誤。

回答

4

數據幀是不可變的。所以只需應用刪除非空值的過濾器將創建一個新的數據幀,該數據幀不會具有空值的記錄。

df = df.filter(df.col_X. isNotNull()) 
4

二者必選其一dropsubset

df.na.drop(subset=["col_X"]) 

is_NotNull

df.filter(df.col_X.isNotNull()) 
相關問題