1.
- 明确目标:保持薛之谦香港站在突发舆情与高并发流量下持续可用;
- 可用优先:SLA 目标设定 99.9% 以上;
- 安全优先:对外接口开启最小化权限、启用 TLS 1.2+/HSTS;
- 可观测:日志、指标、告警齐全,日志保存周期视合规要求设定;
- 可恢复:备份与热备策略,RPO ≤ 1 小时,RTO ≤ 30 分钟(重要服务)。
2.
- 主域与子域分离:www.xuezhijian.hk 与 api.xuezhijian.hk 分别配置不同CNAME/负载;
- 使用GeoDNS:香港/中国大陆流量分别指向近源节点,降低跨境延迟;
- DNS TTL 设定:常规记录 TTL=300s,遇应急预置短 TTL 60s 以便快速切换;
- 域名注册与WHOIS保护:使用稳定注册商,启用域名锁定防止劫持;
- DNS 安全:启用DNSSEC并结合二级DNS提供商冗余解析。
3.
- 生产环境采用主-备架构,前端使用Nginx反向代理+缓存;
- API 服务部署在独立应用实例,数据库走主从复制;
- 配置示例(单节点)如下表,适用于香港演唱会信息页承载;
- 建议基础带宽为 1Gbps 公网出口,突发能力依赖 CDN/清洗厂商;
- 定期压力测试:模拟峰值并发 QPS ≥ 5000 次/秒以验证扩容策略。
| 角色 | 规格示例 | 备注 |
|---|---|---|
| Web 节点 | 4 vCPU / 8 GB RAM / 100 GB NVMe / 1 Gbps | Nginx + 缓存 |
| 应用节点 | 8 vCPU / 16 GB RAM / 200 GB NVMe / 1 Gbps | 后端 API、队列 |
| 数据库 | 4 vCPU / 16 GB RAM / 500 GB SSD / 私网链路 | 主从或托管DB |
| 日志/监控 | 2 vCPU / 4 GB RAM / 100 GB | ELK/Prometheus |
4.
- CDN 层缓存静态资源(图片、JS、CSS),缓存命中率目标 ≥ 90%;
- WAF 规则:启用 OWASP 栈规则,针对 POST 请求与上传流量限制阈值;
- DDoS 防护分层:边缘 CDN 吸收大流量,源站限速与黑洞阈值配合清洗服务;
- 策略举例:对异常 IP 段立即临时封禁,自动触发 Geo-block(如短期);
- 流量基线:正常流量 50–200 Mbps,设置告警阈值为 2x 峰值流量(例如 ≥ 400 Mbps)。
5.
- 指标采集:HTTP 5xx、响应时延 p95/p99、QPS、连接数、带宽使用率;
- 日志集中:接入 ELK/EFK,重要事件保留 90 天,敏感日志按合规处理;
- 舆情数据:社交平台关键词抓取 + 情感分析,实时入库;
- 告警规则:当响应 p99 > 2s 或 5xx 增长 3 倍即触发多渠道告警(短信/电话/钉钉);
- 自动化动作:触发扩容(新增实例)、切换到备用域名、CDN 缩短缓存刷新策略。
6.
- 分级响应:P0(全站不可用)、P1(核心功能受损)、P2(次要故障);
- 成员职责:SRE 负责修复,公关负责对外口径,社区经理负责粉丝群引导;
- 快速切换流程:启用备用域名/静态页面承载重要通知,减少数据库写操作;
- 演练频率:每季度进行一次桌面推演,每半年进行一次灰度压测;
- 演练结果记录:包含RCA(根因分析),并在72小时内完成改进计划。
7.
- 背景:某次演唱会门票信息发布当日,社群链接被大量转发,流量短时间内从 100 Mbps 突增至 1.2 Gbps;
- 措施:启用 CDN 的“维护页+分级缓存”,将 API 写请求临时降级,切换到预先配置的备域名;
- 成效:边缘清洗将恶意流量过滤,源站带宽稳定在 200 Mbps,核心页面可用性 99.95%;
- 配置示例:Nginx 配置 worker_processes 4;worker_connections 10240;client_max_body_size 10M;keepalive_timeout 65;
- 经验总结:预置短 TTL、备用域名、社群统一口径与技术自动化是成功要素。
8.
- 先行部署 CDN+WAF+清洗厂商,预置应急域名与短 TTL 策略;
- 建立监控告警与舆情抓取流水线,确保公关与技术联动;
- 定期做容量评估与压测,QPS 目标至少 2 倍于历史峰值;
- 制定演练与RCA闭环,确保每次事件都有可追溯改进项;
- 文档化所有应急步骤并在粉丝群中设定官方应急公告模板,统一口径发布。