1
試圖使用Python和熊貓來驗證csv文件中的數據。提供乾淨的數據時一切正常。但是,當數據出現問題時,問題很難找到。提高任何形式的錯誤都會很好。這裏有一些僞代碼:如何驗證pandas.read_csv讀取的csv數據?
dtypes = {'Date': 'str', 'yesno': 'str', 'int_val': 'int', 'decimal_value': 'str'}
df = pd.read_csv(filename, dtype=dtypes)
# Ensure exceptions are thrown for invalid data.
# valid date format in date. ValueError raised for invalid data.
pd.to_datetime(df['Date'])
# 'yes' or 'no' for the yesno field. (has to be in a list of values)
# valid integer for int_val.
# a valid integer or decimal number for decimal_value
我甚至不確定pd.to_datetime是驗證日期的最佳方法。這樣做的好方法是什麼?
一旦你發現無效數據,你想做什麼? –
提高任何錯誤都很好。如果任何地方的日期格式無效,則pd.to_datetime(df ['Date'])語句會引發ValueError。 –
然後,你有你的答案。 –