我想編寫一個腳本,可以搜索和報告個人身份信息,如卡號等文件系統中。我想在txt以及xls word和PDF文件中找到它。Python腳本搜索PII
歡迎任何啓動提示或使用哪個庫。
我也會喜歡上的有效方式的意見,掃描大型文件如信用卡等
我想編寫一個腳本,可以搜索和報告個人身份信息,如卡號等文件系統中。我想在txt以及xls word和PDF文件中找到它。Python腳本搜索PII
歡迎任何啓動提示或使用哪個庫。
我也會喜歡上的有效方式的意見,掃描大型文件如信用卡等
給piianalyzer一個鏡頭模式: https://pypi.python.org/pypi/piianalyzer/0.1.0
,或者你可以寫自己的,並使用一個共同的正則表達式數據集,如 https://github.com/madisonmay/CommonRegex
如果您正在爲一家公司工作,可以考慮購買打包解決方案。我見過的廣告是Nuix。此外,Oracle還爲GDPR(新歐盟隱私法)提供端到端解決方案,其中包括您描述的功能類型。見http://www.oracle.com/technetwork/database/security/wp-security-dbsec-gdpr-3073228.pdf。
如果您擁有Oracle RDBMS,則有一個名爲CTXSYS(現稱爲Oracle Text)的軟件包,它具有跨文檔的驚人搜索功能,包括PDF,整個Office套件等等。 CTXSYS包含在常規許可證中。如果您是家庭用戶,則可以下載Oracle服務器(Express版本適用於此功能)。
如果您按照上面的建議使用正則表達式,一種簡單的方法是搜索在句子中部大寫的單詞,但只對文檔有幫助(比如XLS不太常用)。你也可以建立一個通用名字典(第一/最後一個名字,街道,城鎮)。信用卡和SSNs應該是易於正則表達的。
如何祈禱告訴,可以這樣的事情以道德的方式使用? – Crisfole
那麼,這是當你正在努力保護它。您知道未上過冊的PII尤其是卡片會帶來更大的風險,現在PCIDSS等競爭者需要在不使用前掃描環境並保護它們。所以,我有純粹的道德原因。 – Novice123
充其量可疑 –