敢说永不掉线、秒级恢复,华为的底气是什么? 敢说永不掉线、秒级恢复,华为的底气是什么?
创始人
2025-06-10 18:42:49


在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的话题。

在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协同,实现整个系统的效能最优,才有更积极的现实意义。

如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技术发展创造条件。

近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关技术细节,为业界提供参考价值。

我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中国的蓬勃发展。

《华为技术披露集》系列 VOL.14 :高可用性

想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。

如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能承受日常的 "小磕小碰",又能在遇到突发故障时保持稳定运行。只有确保算力资源随时可用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成品"。

高可用核心基础:面向超节点的故障感知、管理及容错

AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了全栈可观测能力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊断等四大能力的故障诊断技术。

当前行业水平下,万卡级别的AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还导致了算力资源的大量浪费。为解决这一问题,华为团队通过建立AI集群全系统可靠性分析模型,实现对可靠性指标的预计评估和分配分解。从可分析、可增强、可验证、可诊断等方面,持续构建可靠性系统工程能力,突破关键可靠性技术,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力。

超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超时代答,绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降Lane,HCCL算子重执行,借轨通信,双层路由收敛,Step级重调度等特性,实现光模块闪断的故障率容忍度>99%。在新增10倍+光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模块闪断率低至电链路水平,保障了超平面的可靠性。通过构建Step级重调度能力,高频的HBM多比特ECC故障恢复时间缩短至1min,对于因为故障造成的用户的算力损失下降5%。

高可用助力业务:万卡集群上千亿模型的线性度和训推快恢

线性度指标用于衡量训练任务速度或吞吐的提高比例(即完成时间缩短比例)随算力卡数增长比例的比值。华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB、无侵入通信跨层测量与诊断技术AICT等四项关键技术,实现Pangu训练线性度提升。总体方案如下图所示:


实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡Atlas 800T A2集群相比256卡基线,线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时,8K卡Atlas 800T A2集群相比512卡基线,线性度95.05%;4K卡CloudMatrix 集群相比256卡基线,线性度96.48%。

大规模AI集群运行过程中频繁因为各类硬件、软件故障导致训练任务中断,业界通常使用训练过程中周期保存的CKPT恢复训练任务。华为基于软硬件全栈的技术方案创新打造了如下分层分级的训练任务故障快恢系统,不同层级的故障恢复能力如下图所示。


通过数据集索引构建加速、模型编译缓存加速、集合通信建链加速、存储CKPT加速等关键技术优化,万卡集群的训练恢复时间可以做到10min以内,进程级重调度恢复能够有效缩短训练恢复时间到3min以内,进程级在线恢复进一步缩短训练恢复时间到30s以内,同时可以降低训练回滚时间到一个训练迭代的时间,且与集群规模、模型规模基本无关,极大提升了AI集群可用度和大模型训练效率。

随着千亿MOE模型架构演进,实例部署的组网架构从传统的一机八卡演进为大EP组网架构,目前在大EP组网架构下主要面临部署规模扩大导致的故障概率数量增大、故障爆炸半径变大的可靠性问题,任意硬件故障都会导致整个Decode实例不可用,进而导致推理业务受损,甚至中断。

针对大EP推理架构的可靠性难题,华为团队提出三级容错方案,实例间切换、实例内重启恢复、实例内无损恢复,从芯片驱动层、框架层、平台层相互协作,构筑端到端可靠性体系。在不同的故障场景下,采用不同的容错恢复手段,可以最小化用户损失。


其中实例内重启恢复技术,可构筑带内快速故障感知和重调度、参数权重和镜像预热技术等技术,将实例内重启恢复时间压缩到5min内。TOKEN级重试技术,基于DeepSeekV3 1P2D多机CloudMatrix 384场景下,针对HBM KV Cache故障,故障恢复时长(从故障发生到Token重新输出时间),小于10s。相较于业界的10min恢复实例,TLR可将故障影响减少60倍。

针对AI算力集群的高可用性,华为团队提出了六大创新方案,即故障感知诊断、故障管理、集群光链路容错等高可用所需要三大基础能力,以及集群线性度、训练快恢、推理快恢等高可用为业务带来的三大支撑能力。这六大创新均带来了非常可观的收益,比如万卡集群可用度达到98%、集群训推最快达到秒级快恢、集群线性度达到95%+、千种故障模式库与分钟级故障诊断等。

面向未来,华为团队会持续在场景多元化与复合化为代表的新应用驱动、异构融合与对资源池化为代表的新架构突破、极致可观可测与智能自治免维代表的新工程范式等三个方向进行探索,带来更多的创新成果。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4447833.html?f=wyxwapp

相关内容

热门资讯

调味品龙头,港股上市第一天盘中... 2025.06.20本文字数:2434,阅读时长大约4分钟作者 |第一财经 李隽港股上市第一天,海天...
周六福开启招股,6月26日将在... 来源|贝多财经 6月18日,周六福珠宝股份有限公司(下称“周六福”,HK:06168)披露发售公告,...
超1亿用户下单,美团闪购:“6... 端午家人聚餐,闪购几瓶白酒助兴;儿童节,买个“小天才”送孩子;高考结束,闪购笔记本电脑犒劳考生;父亲...
中基协:截至一季度末,资产管理... 北京商报讯(记者 李海媛)6月19日,中基协发布2025年一季度资产管理产品统计数据。数据显示,截至...
股价2个月暴涨200%,永安药... 短短两个半月内,永安药业(002365.SZ)股价从9元飙升至28元,累计涨幅超200%。截至6月1...
中国幼儿园,每小时消失2所 中... 订阅 快刀财经 ▲ 做您的私人商学院幼儿园空荡荡,产房静悄悄。作者:图数室来源:图数室(ID:sin...
信用卡存量突围战:打出私银+财... 信用卡存量突围战:打出私银+财富管理组合拳作者 | 郭聪聪编辑 | 方海平新媒体编辑 | 实习生 宋...
消费者留给防晒衣的信任不多了 ... 当"不防晒的防晒衣"冲上热搜第一,防晒衣消费热背后的隐患也暴露无遗。在央视镜头下,虚标紫外线防护系数...
海天味业港股上市,首日微涨0.... 21世纪经济报道记者吴抒颖 广州报道6月19日,海天味业在港股二次上市,截至当日收盘海天味业报36....
主力资金连续5日流出!五粮液集... 五粮液集团本次拟增持股份的所需资金来源为自有资金,考虑到集团近年来累计获得分红超百亿元,理论上具备直...
新业主七折购房,取消!老业主差... 距离收房还有不到半个月时间,但买了北京御翠园的业主很是恼火。 顶着“李嘉诚在京最后一个项目”的光环,...
易方达的千亿魔咒,是因为不懂Z... 在资产管理行业,"规模是业绩的敌人"这一说法由来已久,当基金规模突破某一临界点后,管理难度呈指数级上...
甲醇期货:6月19日涨1.88... 【6月19日国内期市能化板块多数飘红,甲醇期货延续偏强震荡】6月19日,国内期市能化板块多数飘红。甲...
Labubu二手价大跌,有黄牛... 6月19日,有网友表示,泡泡玛特6月18日在其官方小程序上已大量补货Labubu系列盲盒,并多次弹出...
又来大“咖”,羊城创意产业园“... 广州东部,金融城北区,在羊城创意产业园这片绿荫掩映的创意热土上,咖啡香气正编织着新的商业图景。库迪咖...
“618”银行掀起信用卡抢客战... 多家银行杀入“618”战场,借助这波消费旺势发力信用卡业务。 时代财经梳理发现,今年“618”期间,...
华润医疗(01515.HK):... 华润医疗(01515.HK)发布公告,自2025年6月19日起:(1)宋清退任执行董事、董事长、提名...
「数据看盘」标普消费ETF成交... 一、沪深股通前十大成交 今日沪股通总成交金额为607.86亿,深股通总成交金额为714.43亿。 ...
美利坚甩锅大赛,进入白热化阶段... 2025年年中的美联储决议出来了:维持联邦基金目标利率区4.25%-4.50%不变,维持原有缩表节奏...
国信证券:购买万和证券股份获深... 新京报贝壳财经讯 国信证券(002736.SZ)公告称,公司发行股份购买资产暨关联交易事项获得深圳证...
业绩“五连亏”,中国东航拟转让... 本文来源:时代周报 作者:管越 图片来源:图虫业绩“五连亏”的中国东航(600115.SH,067...
人均养老金有多少?人社部终于公... 养老金的差距确实大,城镇退休职工竟然是农民的14倍多。很多还没退休的人,总是问退休后能拿到多少养老金...
“兆易创新”将重回巅峰? 兆易... 去年国内的存储器公司大部分都过得很滋润,因为三星、美光和SK海力士这三大巨头放弃了DDR3市场。今年...
超4600股下跌,原因在这儿→... 6月19日,市场全天低开低走,创业板指领跌。截至收盘,沪指跌0.79%,深成指跌1.21%,创业板指...
零跑算是「活下来」了吗? 零跑... 文 / 五洲来源 / 节点财经复制爆款,能超越爆款吗?自从找到了“年轻人更理想的家”这个定位之后,零...
上海土拍揽金191.6亿!保利... 本文来源:时代周报 作者:张钇璟 图片来源:图虫创意6月19日,上海2025年第五批次集中供地进入...
德生科技:员工持股计划非交易过... 新京报贝壳财经讯 德生科技公告,公司2025年员工持股计划非交易过户已完成,过户股份数量为174.5...
渤海轮渡:董事于新建减持0.0... 新京报贝壳财经讯 6月19日,渤海轮渡公告,公司董事、总经理于新建先生在2025年2月26日首次披露...
香港顶级豪宅“神秘买家”,竟又... 香港顶级豪宅换了主人!作者 | 蒲肃编辑丨高岩来源 | 野马财经香港东半山豪宅区,聂歌信山道8号,有...
德林海“增收不增利”遭问询 回... 中经记者 陈家运 北京报道营收增长44.71%,净利润亏损却扩大至-8614.87万元——德林海(6...