我試圖找到一種方法來計算在我想忽略NDA的Scala中的Spark Dataframe中的行的平均值。在R,有一個叫rowMeans非常方便的功能,其中一個可以指定忽視的NA:計算行平均值,忽略Spark Scala中的NGA
rowmeans(df,na.rm=TRUE)
我無法找到星火Dataframes相應的功能,我想知道如果任何人有一個建議或者如果輸入這將是可能的。用0代替它們不會到期,因爲這會影響分母。
我發現了一個類似的問題here,但是我的數據框會有數百個列。
任何幫助和共享見解表示讚賞,歡呼!
謝謝您的輸入。但是,我正在尋找一種方法來計算數據框中行的平均值。 – Chooan
Sry,我把列與列混淆。那麼對於行來說也很容易。首先我們用0填充空值,然後計算平均值列。 val df_filled = df.na.fill(「0」); val nrow = n; (c1,c2)=>(c1 + c2)/ nrow));我們可以通過下面的公式 sumDF.show() –
嗨,是的,這將工作,但後來再次如我所述;如果我們用零填充NA,這將影響計算平均值的分母,如果我假設它是如何計算的話。就我的情況而言,我將要總結大約1500列,使得很難說哪些列與減少陳述相同。因此,最後,我需要對行進行求和並計算其中NAs沒有考慮到大量列的平均值。簡單的事情,但在同一時間不.. – Chooan