2017-01-25 41 views
0

我不知道人們會如何去驗證你拉文本數據和乾淨的,考慮到你也無法驗證該數值或閱讀每一個條目。驗證和清理文本數據

我的具體情況是處理電子郵件的文本數據,從.mbox文件拉動。所以有不同類型的格式 - 即簽名等 - 我想分析的文本本質上是該機構的一個子部分。比方說,我想出了一種方法來提取我想要的內容,然後如何驗證我將要使用的數據是我特別想要的?

回答

0

構建測試框架,可以從樣品中消息中提取數據,並將結果進行比較,以期望的結果。

將隨機選擇的消息與期望的輸出一起添加到測試框架。根據需要改進您的提取/清潔代碼,直到測試通過。

然後添加另一隨機選擇的消息,並繼續下去,直到所有的測試都通過縮小所述提取的代碼。

反覆進行,直到測試框架中的消息表示您的數據集的足夠大的子集,你可以有你處理所有可能的情況下,高置信度。

如果你發現一條消息,沒有做正確的事情,你可以把它添加到您的測試套件,並有信心,它不會破壞任何已知的情況下修改代碼。