我的問題如下:如何匿名處理選定標記的XML數據?
我必須讀取一個大的XML文件,50 MB;並匿名與私人問題有關的一些標籤/字段,如姓名地址,電子郵件,電話號碼等...
我確切知道XML中的哪些標籤將被匿名化。
s|<a>alpha</a>|MD5ed(alpha)|e;
s|<h>beta</h>|MD5ed(beta)|e;
alpha
哪裏和beta
指內的任何字符,這也將被散列,使用可能的算法等MD5。
我只會轉換標籤值,而不是標籤本身。
我希望我對自己的問題有足夠的瞭解。我如何實現這一目標?
甲50 MB文件可能會有點多的DOM處理,根據在存儲器中的數據結構的擴展因子。至少可能需要一段時間纔能有結果出來。流或拉處理可能是一個更好的主意。 – mirod 2009-02-20 13:33:24