1.
概述与运维周期规划
制定维护周期:例行周检、月检、季检与年检。周检(例:每周一次)覆盖日志、设备在线状态;月检增加UPS、风扇、磁盘健康;季检加入负载测试与电池放电测试;年检含全面清洁与冷冻机维护。定义维护窗口(例如周末凌晨2:00-6:00)并提前72小时通知相关方,准备回滚计划与应急联系人清单。
2.
维护前准备与权限确认
步骤:1) 拉取变更单并审批;2) 备份配置与数据(数据库快照、VM快照、配置备份);3) 验证远程控制(IPMI、KVM-over-IP)可用;4) 确认现场人员、工具与必要备件(网线、风扇、电池、备用交换机)。记录维护编号与计划时间。
3.
安全与现场工作流程
到场流程:1) 出示工单与证件到机房门禁;2) 签入/签出记录并佩戴ESD防护;3) 按序号进入机柜,先拍照当前配线与标签;4) 使用断电牌与沟通频道锁定维护状态;5) 对涉及设备提前做通知并逐台执行操作。
4.
电源系统检查与操作步骤
检查项目与步骤:1) 查看PDU与机柜电流表,记录U位负载;2) 检查UPS状态与电池容量(示例命令:通过UPS管理界面查看剩余放电时间);3) 执行一次受控的负载切换测试:将负载切至备用电源,监测无缝转移时间并记录;4) 对有异常的UPS安排更换电池或厂商服务。
5.
网络设备与连通性检测
操作步骤:1) 逐台交换机/路由器核对配置与版本;2) 使用console或SSH检查接口状态(示例命令:show interfaces status);3) 对关键链路执行ping、traceroute、iperf测试,记录延迟与丢包;4) 检查光纤收发器、SFP模块与跳线标签是否匹配并清理端口灰尘。
6.
服务器与存储具体检查步骤
步骤:1) 检查RAID状态与硬盘SMART(示例命令:smartctl -a /dev/sdX);2) 验证系统日志(/var/log/messages、dmesg)是否有硬件报错;3) 执行一次受控重启或固件升级前先快照VM并通知业务方;4) 验证RAID重建、镜像同步完成后再投入生产。
7.
冷却与环境控制检查
步骤:1) 检查CRAC/空调工作状态与报警记录;2) 测量机柜前后温度与湿度(建议在各机柜中间与上部各测一次);3) 清理机房回风口与滤网;4) 对有问题的风扇更换或调整气流方向,并记录温度变化趋势。
8.
机房布线与物理检查
步骤:1) 核对机柜标签与实际设备对应;2) 整理电源线与网线,避免缠绕与受压;3) 检查线槽、配线架是否有松脱或损伤;4) 使用光纤清洁工具清理端面并记录测试结果。
9.
监控、日志与告警验证
步骤:1) 确认监控系统(Zabbix/Prometheus等)数据采集正常;2) 检查告警策略与阈值是否合理,模拟触发测试(非生产冲击下);3) 收集维护期间的syslog与SNMP trap以便回溯;4) 维护完成后确认告警归零并归档快照。
10.
故障演练与回滚流程
步骤:1) 在变更前明确回滚点与回滚脚本;2) 执行关键操作时每步记录时间点与输出;3) 若发现异常,立即按回滚脚本恢复快照/配置,并通知相关方;4) 完成后进行验证测试并在变更单上签字确认。
11.
维护后验证与交付
步骤:1) 完成服务可用性测试(业务侧合成交易、连接测试);2) 对关键指标(CPU、内存、延迟、丢包)做基线对比;3) 更新CMDB与维护记录,附上照片与命令输出;4) 提交维护报告并由运维经理签字归档。
12.
长期优化与建议
建议:建立自动化巡检脚本(例如定时抓取SNMP、SMART与温湿度),定期做灾备演练,升级固件与安全补丁在隔离环境先验证。保持备件池与供应商SLA对齐。
13.
问:维护窗口如何选择才最安全?
答:选择低峰业务时段(通常周末或深夜),提前72小时通知,确保业务负责人与支持人员待命,并准备回滚计划与快照以便快速恢复。
14.
问:遇到UPS自动切换失败怎么办?
答:立即切换到厂商应急流程:查看UPS日志与电池状态,若需短时间恢复可手动从PDU转移负载到冗余线路,同时联络UPS厂商实施现场支持与更换电池。
15.
问:维护完成后如何验证业务完整性?
答:执行端到端合成交易、数据库一致性校验、网络连通性与性能测试(ping/iperf/应用层探针),监控48小时无异常后方可签发最终维护完成报告。
来源:香港腾讯机房维护 运维周期与关键检查项目清单