我有一個在AWS中運行的大型基於Web的應用程序,其中包含許多EC2實例。偶爾 - 大約每週兩次或三次 - 我收到來自我的Sensu監控系統的警報通知,通知我其中一個實例已達到100%CPU。爲什麼IOWait中的AWS EC2 CPU使用率瞬間高達100%?
這是通知:
CheckCPU TOTAL WARNING: total=100.0 user=0.0 nice=0.0 system=0.0 idle=25.0 iowait=100.0 irq=0.0 softirq=0.0 steal=0.0 guest=0.0
Host: my_host_name
Timestamp: 2016-09-28 13:38:57 +0000
Address: XX.XX.XX.XX
Check Name: check-cpu-usage
Command: /etc/sensu/plugins/check-cpu.rb -w 70 -c 90
Status: 1
Occurrences: 1
這似乎是一個瞬間發生,CPU進入回落到正常水平秒之內。所以這似乎不應該太擔心。但我仍然好奇它爲什麼會發生。請注意,CPU佔用100%IOWaits。亞馬遜的監測系統並沒有注意到這一點。下圖給出了CPU & IOlevels圖像在13:38
有趣的是,AWS說告訴我,這種情況將很快退休。可能是兩者有關嗎?