0
我正在使用PySpark。 rdd有一個有浮點值的列,其中一些行缺失。缺少的行只是空字符串''。計算pyspark rdd中包含缺失值的列的平均值和中值
現在,我想寫空列的位置的列的的平均值和中位數,但我該如何計算平均值?
由於rdd.mean()函數不適用於包含空字符串的浮動列。
import numpy as np
def replaceEmpty(x):
if x=='':
x = np.nan
return x
def fillNA(x):
mu = np.nanmean(np.array(x))
if x==np.nan:
x = mu
return x
data = data.map(lambda x: replaceEmpty(x))
data = data.map(lambda x: fillNA(x))
但這種方法並沒有真正的工作!