我們得到這個消息(通過電子郵件),每天數次:如何阻止AWS CloudWatch UnHealthHostCount虛假警報?
報警: 「ELB-生產UnHealthHostCount」 美國 - 弗吉尼亞N.
你是因爲您的Amazon CloudWatch的警報收到這封電子郵件 「elb-production-UnHealthHostCount」在美國 - 北維吉尼亞州地區有 進入了ALARM狀態,因爲「閾值交叉:1個數據點(0.2) 」大於閾值(0.0)。在「2016年1月21日星期四 17:39:39 UTC」。
查看該警報在AWS管理控制檯: https://console.aws.amazon.com/cloudwatch/home?region=us-east-1#s=Alarms&alarm=elb-production-UnHealthHostCount
警報詳細信息: - 名稱:ELB-生產UnHealthHostCount - 說明: - 狀態變化:OK - > ALARM - 原因狀態更改:閾值交叉:1個數據點(0.2)大於閾值(0.0)。 - 時間戳:週四2016年1月21日17點39分39秒UTC - AWS帳號:1234567890
閾值: - 報警處於報警狀態在公制是60秒GreaterThanThreshold 0.0。
監視公制: - MetricNamespace:AWS/ELB - MetricName:UnHealthyHostCount - 尺寸:[LoadBalancerName =生產] - 週期:60秒 - 統計:平均 - 單位:未指定
國變化的行動: - OK: - 報警:阿爾恩:AWS:SNS:美國東部-1:1234567890:DevOps的] - INSUFFICIENT_DATA:
但是,在查看我們的nginx日誌文件後,似乎AWS能夠在警報「啓動」的時候聯繫我們的每臺服務器。換句話說,我們的ec2實例在每個請求上返回了200個到/healthcheck
,大約在2016年1月21日星期四17:39:39 UTC。
AWS似乎每隔30秒左右檢查一次我們的實例。
有沒有人遇到過這個問題?如果是這樣,你做了什麼呢?
0.2的數據點表明它可能在警報的一段時間內不健康,或者至少需要一段時間才能健康地響應。也許更改閾值爲'> = 1'而不是'> 0'? –