我有以下問題:我有一個熊貓數據框,其中缺少的值由字符串na
標記。我想在它上面運行一個Imputer,用列中的平均值替換缺失的值。按照sklearn文件,該參數missing_values
要幫我這個:Python - SkLearn Imputer用法
missing_values : integer or 「NaN」, optional (default=」NaN」) The placeholder for the missing values. All occurrences of missing_values will be imputed. For missing values encoded as np.nan, use the string value 「NaN」.
在我的理解,這意味着,如果我寫
df = pd.read_csv(filename)
imp = Imputer(missing_values='na')
imp.fit_transform(df)
這將意味着imputer在替換什麼數據幀與na
值和列的平均值。但是,我得到一個錯誤:
ValueError: could not convert string to float: na
我在誤解什麼?這不是如何工作的印象?那麼我怎樣才能用字符串替換它的意思呢?我應該使用lambda嗎?
謝謝!