一、证书过期导致的告警(最常见)
1. 安全令牌服务(STS)证书过期
现象:
vCenter 登录报错(如“获取身份认证程序时出错”“no healthy upstream”),错误代码 500/400。
全新安装的 vCenter 6.5 U2+ 或 6.7 版本运行约 2 年后易触发。
解决方法:
下载 VMware 官方修复脚本:
wget https://kb.vmware.com/sfc/servlet.shepherd/version/download/068f400000JAn50AAD2
wget https://kb.vmware.com/sfc/servlet.shepherd/version/download/068f400000HW9InAAL9
上传脚本至 vCenter/PSC 的 /tmp 目录,赋予执行权限。
务必先对 vCenter 和 PSC 做离线快照(操作不可逆)。
执行脚本修复 STS 证书。
2. ESXi 主机证书过期
现象:
主机证书默认 5 年有效期到期,vCenter 中显示“证书即将过期”告警。
解决方法(通过 vSphere Client):
ESXi 6.5+ 版本:
选择主机 → 配置 → 系统 → 证书 → 更新证书。
ESXi 6.0 版本:
选择主机 → 管理 → 系统 → 证书服务 → 续订。
二、其他原因导致的红色告警(需排查)
1. IPMI 系统事件日志(SEL)已满
现象:
告警显示“其他主机硬件对象的状态”或“System Management Software 1 SEL Fullness”。
解决方法:
启用 ESXi SSH 服务。
SSH 登录主机执行:
# 查看 SEL 状态
localcli hardware ipmi sel get
# 清空日志(立即生效)
localcli hardware ipmi sel clear
等待几分钟告警自动消失。
2. 浏览器证书信任问题
现象:
访问 ESXi/vCenter 时浏览器弹出“不安全连接”警告。
临时绕过(仅限测试环境):
在 Chrome 快捷方式添加参数:
plaintext
--ignore-certificate-errors
注:生产环境需修复证书问题。
三、操作注意事项
备份优先:
修复证书前必须为 vCenter/PSC 创建离线快照或备份,避免操作失败导致服务不可用。
时间敏感:
STS 证书过期前 3 个月需续签,否则会引发服务中断。
日志清理风险:
清除 IPMI SEL 日志前,建议导出重要事件记录。
总结处理流程
1、[ESXi主机红色告警] --> B{检查告警类型}
2、证书相关| C[STS或主机证书过期]
3、硬件日志| D[IPMI SEL已满]
4、E[续订证书或执行修复脚本]
5、F[清空SEL日志]
6、G[重启服务验证]
7、G
8、H[告警消失]
按上述分类处理可高效解决 ESXi 证书告警问题,关键操作前勿遗漏备份。