第一时间以「快速确认与分级」为核心:啟動手册中的紧急响应清单,立即由值班负责人确认告警来源并触发二级以上通知。通知包含事件摘要、发生时间、初步影响范围。所有步骤必须记录在事件工单中,便于追踪与审计。
(1)立刻确认是否为真实中断,排除监控误报;(2)按手册定义调用相应的故障小组(网络、平台、应用);(3)启动通信链路,保证与上游/下游供应商与业务方的同步通告。
始终使用手册指定的模板通报并保存通话录音/聊天记录,确保信息一致。此阶段的目标是把事件从未知转为“已识别+分级”。
手册应包含标准化的故障排查流程與判定矩阵:先判斷是区域性還是全网性中断,再依赖观测点与流量指标快速画出影响拓扑。使用预设的检查点(链路状态、路由表、DNS解析、第三方API回应)逐项排查,并在排查表中打勾记录。
优先查看核心交换节点、边缘网关与DNS解析记录;参考流量曲线(异常突降/突增)、连接超时率及错误码分布。手册应列出常用CLI命令、日志位置与快速查询脚本,方便现场或远程工程师调用。
根据排查结果在手册中的影响等级表(P0~P3)进行标记,并立刻更新对外影响声明(内部、客户、监管)。此评估将决定是否进入服务切换或降级策略。
通信要遵循“单一真实来源”(SSOT)原则,手册需指定事件指挥官(IC)与联络官(LNO)。所有对内/对外通告统一由IC批准后发布,避免信息冲突。并定义频率(如每15分钟一次简报)与渠道(电话、专用群组、邮件自动模板)。
IC负责全局决策、批准外部通告;工程组长负责技术更新;客户经理负责对重要客户的单独沟通;法务/合规在需要时入场处理监管通报。手册应包含每个角色的联络清单与替补名单。
提供标准化的状态更新模板(标题、当前影响、已采取动作、预计恢复时间、下一步计划),并注明何时升级到监管或媒体通报,确保信息透明且可追溯。
手册须列出优先级高的关键服务与对应的切换/降级策略,例如启用备用链路、路由绕过、降级非核心功能或启用只读模式。每个措施都需有前置条件、回退条件与执行步骤,且必须在变更窗口或IC批准下实施。
切换步骤包括通知相关方、修改路由/流量规则、验证流量回流与性能指标;回退需先确认主路径稳定并逐步回流,同时保持对客户的实时通告。所有变更必须在变更记录中写明实施人、时间与验证结果。
在无服务器状态下可启用限流、缓存策略、离线队列与静态应答页面减轻实时服务依赖,手册应提供具体配置示例与风险提示,避免缓解措施造成二次故障。
事件关闭后必须在规定时限内启动复盘(Postmortem):由IC召集相关方进行事实还原、时间线确认、根因分析与影响评估。手册中应有复盘模板,要求列出可改进项、责任人及完成期限,并按优先级纳入整改计划。
复盘结论若涉及手册流程、工具或通信模板的变更,需通过变更管理流程批准并更新手册版本。所有更新后须进行桌面演练或小规模演练验证有效性,并在演练报告中记录问题与改进。
将复盘文档、脚本与典型日志样本归档到知识库,并在手册中加入快速检索索引。定期(如半年)进行手册审查,确保在香港电信环境、法规与供应商变更时及时同步调整。