部署前先做资产清单:列出主机、公网IP、路由、BGP对端和重要应用口。规划时要定义监控目的,如保障延迟、丢包、链路稳定性与服务可用性。
采用三层监控:网络层(链路延迟、抖动、丢包、BGP状态)、主机层(CPU、内存、磁盘、网卡错误)、应用层(TCP握手、HTTP响应、连接数)。每层制定采样频率与保留策略。
务必在规划阶段确认监控点(出口路由、香港节点、上游CN2出口)并预留日志存储与告警渠道,以便后续扩容与审计。
监控延迟(Latency)和丢包(Packet Loss)是核心;同时关注抖动(Jitter)、带宽利用率、接口错误、路由变更频次和BGP邻居状态。
主机层需监控CPU、内存、磁盘IO、网卡丢包与队列;应用层关注响应时间、错误率(5xx/4xx)、连接数、数据库慢查询等。
建议网络探测采用ICMP/TCP/UDP混合(目标:香港出口与上游ISP),采样间隔根据重要性设为30s或60s,并保留历史用于趋势分析。
阈值应基于历史数据并结合业务SLA:例如延迟基线+30%或固定阈值(如RTT>100ms);丢包短时阈值(>1%持续1分钟)与长期阈值(>0.5%持续10分钟)。
设计告警分级(信息/警告/严重/紧急),并配置静默窗口与抑制策略,避免短时波动触发大量通知。对于BGP或线路切换,设置短期抑制+长期升级。
告警渠道建议多样化:企业微信/钉钉/短信/电话轮拨,并配置自动化Runbook链接、责任人与升级链路,保证告警能被按级别及时响应。
常用工具:Prometheus+Alertmanager(指标采集与告警)、Grafana(可视化)、Zabbix/Nagios(传统监控)、Speedtest/Smokeping(网络探测)、BGPStream或ExaBGP(路由监控)。
使用分布式采集器在香港节点部署探针(如blackbox-exporter、smokeping),并将数据统一推送到Prometheus或TSDB,再用Alertmanager做告警路由和抑制。
把告警触发与自动化脚本对接(例如自动切换备线、变更防火墙规则或通知NOC),并定期演练“线路故障切换”“BGP失邻”等场景校验链路。
第一步确认监控数据:查看延迟/丢包峰值、BGP邻居状态与路由变更日志;第二步在不同层级做排查:链路->交换->物理机->应用。
常用命令:ping/traceroute/tcpdump/ss/netstat、查看BGP表(show ip bgp)、路由回溯和流量镜像。结合历史监控图表快速锁定异常时间窗。
短期:触发预先定义的故障切换Runbook(切换出口、修改路由策略、启用备用链路);长期:分析根因、更新阈值或与ISP沟通并记录变更。务必在工单中记录时间线与影响范围,以便事后复盘。