上周接到客户电话:‘监控平台一直在报温湿度超限,但机柜摸着不烫,空调也开着,到底该信数据还是信手感?’——这问题太典型了。不是传感器坏了,而是告警阈值设得没贴合真实环境。
别照搬国标数字,先看你的机房在哪儿
GB50174-2017 写着A级机房温度宜为23℃±1℃、湿度40%~60%,但这是理想工况下的推荐值,不是所有机房都适用。比如西北某IDC机房,夏季室外湿度常年低于20%,如果硬把下限设成40%,每天几十条‘湿度过低’告警,值班人员早麻木了。
实际告警范围得拆开调
温度和湿度不能套同一套逻辑:
• 温度告警建议分两级:高温预警(比如28℃)、高温告警(32℃);
• 湿度则要防两头:湿度过低(<30%)易起静电,过高(>70%)可能凝露。我们给某银行网点机房调的策略是:35%~65%正常,<30%或>70%触发告警。
软件里怎么配?以Zabbix为例
很多系统软件(比如Zabbix、Prometheus+Alertmanager、或者国产的云智慧、听云)都支持自定义阈值。关键不是填个数字,而是加个判断逻辑:
if (temperature > 32) { trigger_alert("机房高温"); }
else if (temperature < 18) { trigger_alert("机房低温"); }
if (humidity < 30 || humidity > 70) { trigger_alert("湿度异常"); }
注意:别忘了加持续时间判断,比如‘温度>32℃连续2分钟’再告警,避免空调启停瞬间抖动误报。
还有三个容易被忽略的点
• 测点位置影响极大:传感器贴墙装,夏天午后墙面温度可能比冷通道高5℃,告警值就得上浮;
• 设备发热周期要匹配:视频渲染机房夜间批量跑任务,告警时段可以动态调整;
• 湿度单位别搞混:有些设备返回的是相对湿度RH%,有些是绝对湿度g/m³,配错直接告警失灵。
说白了,告警范围不是抄来的,是量出来的——拿红外测温枪扫一圈热点,用便携式温湿度仪在不同机柜抽测三天,再结合历史监控曲线找拐点。你调好的那组数字,才是真正在替你盯机房的人。