2015-09-21 26 views
0

假設我們有一個大型的匿名數據數據集。數據集包含一定數量的變量和觀察值。我們可以瞭解的所有數據都是變量的類型(數字,字符,日期等)。我們可以通過手動查看數據來完成。 用於進一步分析的預處理數據集的最佳實踐步驟是什麼?預處理匿名數據以進行預測分析的步驟是什麼?

就比如,讓這組數據只是一個表,所以我們並不需要檢查表之間的任何關係。

回答

0

This link給出了一套完整的驗證目前在實踐中。不過,先從:

  • 只要有可能,都寫在這樣你可以用你喜歡的編程語言的方法/構造解析它的速度和儘可能方便,這是一種您的數據;
  • 如果所有的數據類型匹配正確,您可以驗證 - 如int字段不包含字符串數據等;
  • 您可以驗證您的值是否在可接受的範圍內;
  • 檢查一個不可爲空的字段是否有空值;
  • 檢查日期是否在預期範圍內;
  • 檢查數據是否正確設置成員資格限制在適用的地方;
  • 如果你有以下類似電話號碼的數據模式,確保他們在(XXX)XXX-XXXX的設計,如果你喜歡他們的方式;
  • 是在正確的精度水平的郵政編碼(在美國,你可以具有5個或9位數字的準確性);
  • 如果你的數據是時間序列,是完成(即你有所有日期值)?
  • 有沒有不必要的重複?

希望這是不夠好,讓你開始...

+0

可能我需要更新的問題,以澄清。請參閱更新。 – angubenko

+0

@angubenko:我看不到你的問題有任何更新。 – displayName

+0

對不起,我輸入了它 – angubenko

相關問題