帖子内容
〰️ DMIT 故障复盘与补偿公告 (公告解析) DMIT 发布故障复盘报告,本次 DMIT 故障涉及 🇺🇸 LAX (CN2 GIA 产品线) 以及 🇭🇰 HKG 两个产品线/地区,目前所有故障均已缓解 并承诺向所有用户补偿 立即重置流量、1次免费手动重置流量机会。 🇺🇸 LAX (CN2 GIA 产品线) 故障报告 (点击下方色块可展开详情) 🚩 责任划分: CTG (指 China Telecom Global, 下同) 承担所有责任 📉 故障原因: 1️⃣ 上游 (CTG) 配置失误,IP 前缀限制给少了 (300 vs 1000); 2️⃣ LACP备用线路的配置错误导致带宽跑不满。 🚧 此次故障事件用时较久,主要原因: 赶上国内三大运营商 “封网期”* (2025/12/15 结束),导致 CTG 运维无法向国内集团总部申请权限。 🇭🇰 HK (HKG) 可用区故障报告 (点击下方色块可展开详情) 📉 故障原因: 1️⃣遭遇针对多网段、大规模的 “地毯式轰炸” (Carpet Bombing, 也称 "扫段") DDoS 攻击; 2️⃣突发硬件故障 + 牵引规则配置失误,使得攻击流量 绕过了清洗设备 直接涌入核心网,最终导致 HK 整个可用区被打死; 3️⃣ 由于技术团队主要精力集中在解决 LAX 严重故障,导致对 HKG 的排查任务暂时被搁置。 💰补偿方案 1. 即刻执行: 所有用户、所有地区、所有机器的流量在今日全部清零; 2. 额外福利:获赠 1次 免费重置流量机会 (有效期至 2026年5月,未来通过网页功能发放)。 📝 专有名词解析: *: CTG: 全称 China Telecom Global, 指中国电信 (国际) 公司, 遇到重大决策需要向国内总部申请授权。 *: 运营商封网期 (摘自百科): 指在重大节假日、重要会议或活动期间,运营商为保障网络稳定,晳停对网络升级、割接、设备入网、重大数据修改等操作。 📝 公告原文参考: (由 Gemini 3 Pro 翻译, 原文链接, 点击下方色块可展开阅读) DMIT 网络故障报告:洛杉矶 (LAX) 与 香港 (HKG) 除非后续发生重大变更,否则本文将是本次事件的最终更新。 以下是关于近期网络不稳定性事件的综合技术复盘。 --- ℹ️🇺🇸 洛杉矶 (LAX) CN2 GIA 故障 **当前状态**:所有紧急缓解措施均已实施。受中国国内“封网”期(至 12 月 15 日结束)影响,来自中国电信国际(CTG)侧的最终修正配置仍需等待。 **1. 根本原因:超出前缀限制 (Prefix Limit Exceeded)** * **配置错配**:DMIT 订购了 1000 条的前缀限制,但上游供应商(CTG)维持了默认的 300 条配置。由于该参数在交付后无法进行外部测试,我们此前信任了供应商的交付配置。 * **触发诱因**:两名客户增加了路由宣告数量,叠加多条用于防御 DDoS 的 RTBH(黑洞)路由,导致总路由数突破了 300 条的阈值。 * **导致结果**:AS4809 (CN2) 在检测到超出限制后,立即挂起(Idle)了 BGP 会话。 **2. 为何故障转移导致了严重丢包?** * **架构设计**:冗余会话(CoreSite 链路)按设计保持了连接(UP)状态(并过滤了 DDoS 路由以节省前缀空间)。 * **关键故障点**:**供应商 LACP 配置错误**。CTG 将我们的链路聚合组配置为单接口容量,直接忽略了我们实际存在的多条物理 10G 连接。 * **影响范围**:当流量自动切换至 CoreSite 线路时,流量总额超过了其逻辑上被错误设定的 10G 上限。尽管物理层面的容量充足,但逻辑限制仍导致了严重的网络拥塞和丢包。 **3. 为何恢复耗时较长?** * **行政管制**:受“封网”影响,核心路由器的命令行(CLI)操作权限已被暂停。 * **审批流程**:CTA/CTG 需要向集团层面申请紧急访问权限。由于事发时正值中国国内下班时间,获取该紧急授权耗费了大量时间。 --- ℹ️🇭🇰 香港 (HKG) 故障 **当前状态**:99.9% 的流量已被成功过滤。目前持续实施主动监控,攻击规模约为 10Mpps。 **1. 根本原因:“地毯式轰炸”攻击 (Carpet Bombing)** * **攻击类型**:针对 3 个特定子网的大规模“地毯式轰炸”攻击。 * **攻击向量**:混合了 TCP-SYN、TCP-ACK (Zero/Empty)、SYN-ACK、TCP Null、FIN 以及 RST 等多种流量类型。 **2. 为何初期清洗未能生效?** * **流量泄漏**:牵引(Detour)规则的配置失误叠加硬件故障,导致攻击流量绕过了本地清洗设备。恶意流量直接通过骨干网(LAX IP Transit)涌入。 * **误判干扰**:我们最初将精力集中在优化清洗规则上,未察觉清洗设备本身存在软硬件故障。这一误判干扰了排查方向,延误了修复时机。 **3. 资源挤兑** 洛杉矶(LAX)同时发生的严重故障需要工程团队不间断地协调处理,分散了我们的技术资源,不可避免地拖慢了香港(HKG)故障的诊断进度。 --- ℹ️🛡 未来的预防与承诺 **更严格的审计**:我们将增加一道人工审核流程,逐一核对供应商订单中的每一个文本字段,确保交付的配置(如前缀限制和 LACP 速率)与我们的要求完美匹配。 **现实情况**:DDoS 攻击手段日新月异。虽然我们无法保证零事故,但 DMIT 承诺将倾尽所有资源,以合理的成本维护网络稳定性,为您的业务保驾护航。 --- ℹ️ 补偿方案 无论所在地区或网络类型,**所有服务** 的流量将于今日重置。此外,所有服务均将在 2026 年 5 月前获得 **一次额外的免费流量重置机会** (该权益后续将通过网站功能实装,供用户自主使用)。 * 写文不易,如果觉得我写的指南对你选购有所帮助,还请点击下方 aff 链接注册新的账号后选购,感谢! https://affyes.link/store/dmit ✅ 本文由 @affyes 频道撰写,转发请保留此声明。