我必須使用政府提供的有時以奇怪方式破壞的數據。我的代碼已經包含片段,如:管理變通辦法的最佳做法(對於損壞的數據)
for row in governmental_data:
# XXX Workaround for that one row among thousands
# that was mislabeled by a clerk and will not be fixed
# before form A-320-Tango-5 is completed and submitted
# on the first Sunday after a solstice.
if row is the_spawn_of_satan:
row = fix_row_A320(row)
# XXX end of workaround
process_row(row)
該錯誤之前只是
for row in governmental_data:
process_row(row)
我不能與應用的修正數據的鏡像,因爲數據是動態的。
隨着數量的增長,我能做些什麼來管理這些變通辦法?是否有任何最佳實踐(除了「不提供破碎的數據開始」)?
實際數據混亂。所以A)採用預處理和過濾技術 - 通常可以跳過破損的記錄 - 或者B)使用對數據中的這種錯誤有效的算法。 –