2012-05-16 112 views
2

我想編寫一個腳本,可以搜索和報告個人身份信息,如卡號等文件系統中。我想在txt以及xls word和PDF文件中找到它。Python腳本搜索PII

歡迎任何啓動提示或使用哪個庫。

我也會喜歡上的有效方式的意見,掃描大型文件如信用卡等

+0

如何祈禱告訴,可以這樣的事情以道德的方式使用? – Crisfole

+0

那麼,這是當你正在努力保護它。您知道未上過冊的PII尤其是卡片會帶來更大的風險,現在PCIDSS等競爭者需要在不使用前掃描環境並保護它們。所以,我有純粹的道德原因。 – Novice123

+0

充其量可疑 –

回答

0

如果您正在爲一家公司工作,可以考慮購買打包解決方案。我見過的廣告是Nuix。此外,Oracle還爲GDPR(新歐盟隱私法)提供端到端解決方案,其中包括您描述的功能類型。見http://www.oracle.com/technetwork/database/security/wp-security-dbsec-gdpr-3073228.pdf

如果您擁有Oracle RDBMS,則有一個名爲CTXSYS(現稱爲Oracle Text)的軟件包,它具有跨文檔的驚人搜索功能,包括PDF,整個Office套件等等。 CTXSYS包含在常規許可證中。如果您是家庭用戶,則可以下載Oracle服務器(Express版本適用於此功能)。

如果您按照上面的建議使用正則表達式,一種簡單的方法是搜索在句子中部大寫的單詞,但只對文檔有幫助(比如XLS不太常用)。你也可以建立一個通用名字典(第一/最後一個名字,街道,城鎮)。信用卡和SSNs應該是易於正則表達的。