AWK：tomcat中日誌

我的Tomcat的日誌建立在這種格式計數錯誤：AWK：tomcat中日誌

[<DATE>] [<COMPONENT>] ERROR_TYPE <ERROR_NAME> - <Rest of line>

哪裏ERROR_TYPE是a log4j value像DEBUG或ERROR。

例如，

[18/Jul/2012:08:53:39 +0000] [component1] ERROR ConnectionTimeOut - ... 
[18/Jul/2012:09:54:32 +0000] [component2] DEBUG IPNotFound - ... 
[18/Jul/2012:09:54:32 +0000] [component1] TRACE Connected - ... 
[18/Jul/2012:08:53:39 +0000] [component1] ERROR ConnectionTimeOut - ...

我想從元組(ERROR_TYPE, ERROR_NAME)創建映射到出現的次數，例如

ERROR ConnectionTimeOut  2 
DEBUG IPNotFound    1 
TRACE Connected    1

如何匹配是這樣的：

_anything_ (ERROR|DEBUG|TRACE|WARN|FATAL_spaces_ _another_word_)_anything_

在AWK

，並在括號中只返回一部分？

來源

2012-07-18 Adam Matan

awk '/ERROR|DEBUG|TRACE|WARN|FATAL/ {count[$4,$5]++} END {for (i in count) {split(i, a, SUBSEP); print a[1], a[2], count[i]}}' inputfile

選擇包含錯誤類型的行。一個count數組元素增加了類型和名稱一起作爲索引。逗號代表SUBSEP變量的內容，默認爲\034。在END塊中，遍歷count數組，使用變量SUBSEP分割索引。打印類型，名稱和數量。

編輯：

它使用正則表達式來處理非結構化日誌條目：

awk 'match($0, /(ERROR|DEBUG|TRACE|WARN|FATAL) +[^ ]+/) {s = substr($0, RSTART, RLENGTH); split(s, a); count[a[1],a[2]]++} END {for (i in count) {split(i, a, SUBSEP); print a[1], a[2], count[i]}}' inputfile

來源

2012-07-18 10:52:34

日誌經常無，所以我不能用這樣的表達式'$ 4'。無論前後發生什麼，我只想匹配兩個字。 – 2012-07-18 10:55:57

'split'函數應該是'split（i，a，SUBSEP）'來獲取索引，而不是值。 – Birei 2012-07-18 11:04:35

@Birei：謝謝。 – 2012-07-18 11:09:07

AWK：tomcat中日誌

回答

相關問題