import numpy as np
df = spark.createDataFrame(
[(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))],
('session', "timestamp1", "id2"))
預計輸出如何有效地找到Pyspark數據框中每列的空值和南值的計數?
數據框與南計數/空爲每列
注: 我在堆棧溢出只爲空&不囡檢查中發現的以前的問題。 這就是爲什麼我創建了一個新的問題。
我知道我可以在spark中使用isnull()函數來查找Spark列中的空值的數量,但是如何在Spark數據框中找到Nan值?
是否需要爲每個列單獨計算nan/Null值(因此每列需要兩列),還是隻想知道列中有多少元素不能被視爲數字? – titiro89
南/空值分開計數將工作 –