與SED

2015-05-15 30 views
0

使用通配符我有一個​​在它嵌入XML之間正常的STDOUT如下日誌文件:與SED

2015-05-06 04:07:37.386 [INFO]Process:102 - Application submitted Successfully ==== 1 
<APPLICATION><FirstName>Test</FirstName><StudentSSN>123456789</StudentSSN><Address>123 Test Street</Address><ParentSSN>123456780</ParentSSN><APPLICATIONID>2</APPLICATIONID></APPLICATION> 
2015-05-06 04:07:39.386 [INFO] Process:103 - Application completed Successfully ==== 1 
2015-05-06 04:07:37.386 [INFO]Process:104 - Application submitted Successfully ==== 1 
<APPLICATION><FirstName>Test2</FirstName><StudentSSN>323456789</StudentSSN><Address>234 Test Street</Address><ParentSSN>123456780</ParentSSN><APPLICATIONID>2</APPLICATIONID></APPLICATION> 
2015-05-06 04:07:39.386 [INFO] Process:105 - Application completed Successfully ==== 1 

這我成功地解析按在Parsing and manipulating log file with embedded xml提供給我一個解決方案。按照崗位有,我用命令的.sed文件,如下所示:

s|<FirstName>[^<]*</FirstName>|<FirstName>***</FirstName>| 
s|<StudentSSN>[^<]*</StudentSSN>|<StudentSSN>***</StudentSSN>| 
s|<Address>[^<]*</Address>|<Address>***</Address>| 
s|<ParentSSN>[^<]*</ParentSSN>|<ParentSSN>***</ParentSSN>| 

我的問題是,有沒有辦法做一個外卡的比賽中你還有上面的foo.sed文件?因此,舉例來說,如果我想匹配所有* SSN標籤和更換那些有**,而非有StudentSSN一行,另一個用於ParentSSN,仍然產生輸出如下:

2015-05-06 04:07:37.386 [INFO]Process:102 - Application submitted Successfully ==== 1 
<APPLICATION><FirstName>***</FirstName><StudentSSN>***</StudentSSN><Address>*******</Address><ParentSSN>*********</ParentSSN> <APPLICATIONID>2</APPLICATIONID></APPLICATION> 
2015-05-06 04:07:39.386 [INFO] Process:103 - Application completed Successfully ==== 1 
2015-05-06 04:07:37.386 [INFO]Process:104 - Application submitted Successfully ==== 1 
<APPLICATION><FirstName>***</FirstName><StudentSSN>*********</StudentSSN><Address>*****</Address><ParentSSN>*********</ParentSSN> <APPLICATIONID>2</APPLICATIONID></APPLICATION> 
2015-05-06 04:07:39.386 [INFO] Process:105 - Application completed Successfully ==== 1 

感謝您在提前

+1

最有可能的,但除非有令人信服的理由沒有多條線,它可能會更好,因爲它是。即使對自己而言,使用更聰明的解決方案也會使其更難理解。 –

回答

1

choroba's helpful answer作品好,因爲使用\|在一個基本的正則表達式(由缺少-r期權的隱含)交替只有:我改變了分隔符%因爲如此在那裏支持。

此外,OP以來表示使用模式匹配類似元素名稱的願望。

這裏有一個解決方案,使得使用擴展正則表達式,它應該在Linux(GNU SED)和BSD/OSX平臺(BSD SED)工作:

sed -E 's%<([^>]*Name|[^>]*SSN|Address[^>]*)>[^<]*%<\1>***%g' file 

注:

  • 將元素名稱的可變部分與[^>]*而不是.*相匹配以確保匹配保持侷限於開放ta G。
  • BSD/OSX 擴展正則表達式(按照POSIX擴展正則表達式)不支持正則表達式本身內部反向引用(相對於該參考「反向引用」捕獲組中的替換匹配字符串),因此不會嘗試將結束標記與一個匹配。
  • 雖然這個命令在規定的平臺上工作,但它是而不是 POSIX兼容,因爲POSIX只強制支持基本在Sed中的正則表達式。

上述命令是使用基本正則表達式如下GNU sed命令的電子quivalent - 注意到,有必要逃脫(),和|

sed 's%<\([^>]*Name\|[^>]*SSN\|Address[^>]*\)>[^<]*%<\1>***%g' file 

請注意,它是使用交替(\|),使得該命令不是便攜式,因爲POSIX基本正則表達式不支持它。

+0

是的,我正在使用OSX。我在一個sed文件中使用這個命令。並且'%<\([^>] * Name \ | [^>] * SSN \ | Address [^>] * \)> [^ <]*%<\1> ***%g'不起作用。你能諮詢一下嗎? –

+1

@ mklament01's%<([^>] *名稱| [^>] * SSN |地址[^>] *)> [^ <]*%<\1> ***%g'與-E完美結合!非常感謝你 –

+0

@FatOwl:不客氣,我很高興聽到它。 – mklement0

1

您可以使用替代\|。與GNUsed

sed -e 's%<\(FirstName\|StudentSSN\|Address\|ParentSSN\)>[^<]*</\1>%<\1>***</\1>%g' 
+0

choroba的解決方案變種:'sed's%<\(FirstName \ |。* SSN \ | Address \)> [^ <]*%<\1> ***%g'file' – Cyrus

+0

@Cyrus赦免我的無知,但如果我曾說過,Address1和Address2以及CoOwenerFirst的OwnerFirst。我做了這樣的事情,並得到一個關於不平衡的假設的錯誤: s | <(。* First \ |。* * SSN \ | Address。* \)> [^ <]*%<\1> *** |' 這是我在.sed文件中的條目,我對我的日誌文件運行 –

+1

感謝您的解釋@ mklement0 –