华为如何驯服AI算力「巨兽」?
创始人
2025-06-10 00:53:07

在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的话题。

在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协同,实现整个系统的效能最优,才有更积极的现实意义。

如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技术发展创造条件。

近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关技术细节,为业界提供参考价值。

我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中国的蓬勃发展。

《华为技术披露集》系列

VOL.13 :万卡集群

你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这些能力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断进化到能处理万亿参数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是把上万台甚至几十万台计算机像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航空母舰"。

当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像精密钟表一样协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训练中的中断问题?接下来我们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如何用工程智慧驯服这头算力巨兽。

超节点高可用:24 小时不停工的智能工厂

就像医院的急诊系统必须时刻在线,AI 训练和推理也不能轻易中断。算力集群里每台计算机都有 "备用替身",当某台机器出现故障(比如突然断电或硬件损坏),系统会立刻启动备用机接管任务,就像接力赛中接力棒无缝传递,确保自动驾驶训练、语音识别等任务持续运行,不会因为个别设备故障而全盘停止。

针对CloudMatrix 384超节点,华为团队提出面向整个超节点的故障容错方案,分为“系统层容错”、“业务层容错”,以及后续“运维层容错”,核心思想就是 将故障问题转为亚健康问题,通过运维手段优雅消除:

(1) 系统层容错:通过超时代答欺骗OS+网络路由切换,防系统蓝屏,同时避免整个超节点级故障。

(2) 业务层容错:租户无感知下,通过重试容忍网络闪断,将系统故障转为亚健康。

(3) 运维层容错:主要构筑亚健康感知和优雅恢复技术,通过主动方式将消减亚健康事件影响。

集群线性度:人多力量大的完美协作

理想情况下,100 台计算机的算力应该是 1 台的 100 倍,1000 台就是 1000 倍,这就是 "线性度"。算力集群通过精密的任务分配算法,让每台计算机都像 orchestra(交响乐团)的乐手一样各司其职,避免出现 "三台和尚没水喝" 的混乱。比如训练一个需要万亿次计算的模型时,万台计算机能像整齐划一地划桨的龙舟队,让算力随规模增长而几乎同步提升。

华为团队提出华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB、无侵入通信跨层测量与诊断技术AICT等四项关键技术,实现盘古模型训练线性度提升。

实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡Atlas 800T A2集群相比256卡基线,线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时,8K卡A2集群相比512卡基线,线性度95.05%;4K卡CloudMatrix 集群相比256卡基线,线性度96.48%。

万卡集群训练快速恢复:带 "存档功能" 的训练师

当用上万个计算单元(俗称 "万卡")训练超大规模模型时,偶尔有几台机器 "罢工" 是难免的。这时系统会像游戏存档一样,自动记录最近的训练进度。一旦检测到故障,能快速定位出问题的计算单元,跳过故障部分,从最新的存档点继续训练,避免从头再来的巨大浪费。比如训练一个需要 30 天的模型,即使中间有设备故障,也能在几分钟内恢复进度,就像视频播放可以随时续播。

为了使万卡集群训练可以达到分钟级快恢,华为团队提出了以下多个创新:

(1) 进程级重调度恢复:正常节点通过参数面网络将临终CKPT传递到备用节点上,完成参数状态恢复后继续训练,能够有效缩短训练恢复时间到3min以内。

(2) 进程级在线恢复:针对硬件UCE故障,通过业务面昇腾CANN软件、框架软件、MindCluster软件配合实现故障地址在线修复,进一步缩短训练恢复时间到30s以内。

(3) 算子级在线恢复:针对CloudMatrix 384产品HCCS网络、ROCE参数面网络提供HCCL算子重试能力,容忍更长时间的网络异常,实现网络故障影响的通信算子秒级重执行,训练任务不中断。

超大规模MoE模型推理分钟级恢复:各路英豪来帮忙

随着千亿MOE模型架构演进,实例部署的组网架构从传统的一机八卡演进为大EP组网架构,将多且小的专家部署在多个服务器节点上缓解显存带宽压力,目前在大EP组网架构下主要面临部署规模扩大导致的故障概率数量增大、故障爆炸半径变大的可靠性问题,任意硬件故障都会导致整个Decode实例不可用,进而导致推理业务受损,甚至中断。

针对当前超大规模MoE模型带来的大EP推理架构的可靠性难题,我们提出三级容错方案,实例间切换、实例内重启恢复、实例内无损恢复,从硬件驱动层、框架层、平台层相互协作,构筑端到端可靠性体系。在不同的故障场景下,采用不同的容错恢复手段,可以最小化用户损失。

(1)实例内快速重启恢复技术:根据实际环境测试验证,该技术将实例恢复时间从20min降低5min。

(2)TOKEN级重试:基于DeepSeekV3在CloudMatrix 384超节点场景下,验证30~60s实现实例恢复。

(3)减卡弹性恢复技术:作为当前进行工作,解决硬件故障下业务中断问题,通过专家迁移,实现故障时推理进程不退出,以减卡为容错手段,动态调整推理实例规模,在用户无感知情况下秒级恢复。

故障管理与感知诊断:24 小时在线的设备医生

算力集群里有一套实时监控系统,就像给每台计算机安装了 "健康手环",持续监测温度、算力利用率、数据传输速度等指标。一旦发现某台设备运行异常(比如散热不良导致速度变慢),系统会立即发出警报,并像医生一样分析故障原因 —— 是硬件老化?网络拥堵?还是软件 bug?快速定位问题并启动修复机制,防止小故障演变成大停机。

针对面向算力集群的硬件故障管理,华为团队提供了一套完整的解决方案:基于CloudMatrix 384超节点的设备物理形态和组网方案的昇腾AI硬件灾备高可靠架构设计、涵盖基础检错纠错能力、故障隔离能力、故障容错能力以及深度巡检与故障预测能力的昇腾RAS统一故障管理容错框架、进一步提升光链路的可靠性的网络自诊断可靠性管理、以及绿色低碳、稳定可靠和安全可信的云数据中心管理体系。

针对面向算力集群的故障感知能力,华为团队构建了大规模集群在线故障感知(全栈可观测)和故障诊断(全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊断)技术:

(1) 全栈可观测能力:构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、网络流可观测能力组成。

(2) 故障诊断能力:包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊断。

建模仿真:算力底座的“数字化风洞”

在正式开展复杂AI模型的训推之前,算力集群可以先在虚拟环境的“数字化风洞”中 "彩排"。比如研发一个新药筛选模型时,先通过模拟不同的算法参数、数据输入和计算资源分配方案,预测模型在真实场景中的表现,就像电影导演用动画预演复杂镜头。这种 "先模拟后实战" 的方式,能提前发现计算系统的瓶颈点和逻辑漏洞,并提出相应优化手段,节省大量真实训推的时间和资源。

华为团队创新性提出系统化、可扩展的马尔科夫建模仿真平台,围绕对训练、推理、高可用三大核心领域实现多维度系统性建模分析与性能预测调优,实现集群资源高效配置与动态优化,达成算力极致利用与系统长期稳定可靠运行。

(1)Sim2Train训练建模仿真:马尔科夫训练集群建模仿真平台,AdaptPack编排优化长序列PP空泡,吞吐提升4.5%-8.24%。通信与计算协同场景,引入AdaptS/R技术,通信暴露时间降89.84%,单步总时长缩短3.25%;MoE通过AdaptExpert提升端到端性能7.5%。

(2)Sim2Infer推理建模仿真:面向昇腾复杂推理系统的马尔科夫建模仿真平台,实现了从高层算子描述到底层硬件指令的自动化映射与仿真,平均误差低至6.6%。

(3)Sim2Availability高可用建模仿真:马尔科夫高可用建模仿真框架,通过离散时间步长仿真,建模单步时长内的故障性能劣化影响与恢复耗时,模拟复杂系统训练任务中的故障场景及运维响应,实现对训练过程性能表现与故障恢复状态的全周期监控仿真。

框架迁移:给模型跑车换更酷炫轮胎

自从2020年3月全面开源以来,华为推出的全场景AI框架昇思MindSpore一路高歌猛进,开发者生态迅速成长。除了为基于昇腾+昇思的自主创新外,昇思MindSpore也提供了拥抱主流生态的兼容方案,适应大模型时代的挑战和需求。

(1)训练阶段,MindSpore构建了MSAdapter生态适配工具,覆盖90%以上PyTorch接口,实现第三方框架的无缝迁移,并针对动态图执行效率的问题,通过多级流水线技术与即时编译(JIT)优化显著提升执行效率。

(2)推理阶段,MindSpore基于主流生态的HuggingFace权重配置,无需修改即可实现一键部署,通过vllm-MindSpore插件对接vLLM框架,支持大模型推理服务化能力。实现盘古72B模型快速部署,实现推理性能提升。

写在最后

综上所述,华为团队针对昇腾算力集群基础设施,提出了针对超节点高可用、集群线性度、万卡集群训练快速恢复、万亿MoE模型推理容错、集群故障感知及感知诊断、集群仿真建模、框架迁移等方面的全维度的创新方案。

随着新型应用快速变化,硬件系统持续创新,系统架构不断演进,工程能力走向智能化,未来算力基础设施的演进将走上算法-算力-工程协同进化的道路,有可能形成形成“应用需求→硬件创新→工程反哺”的闭环,算法层驱动算力专用化(如复合AI需异构加速),算力层通过架构革新(如光电混合)释放性能潜力,工程层以智能化手段(如AI运维)弥合复杂度鸿沟,最终实现高效、弹性、自愈的下一代算力基础设施。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

相关内容

热门资讯

3000万甩卖山西5座煤矿!煤... 港股上市公司中国秦发发布公告,2025年6月5日,其全资附属公司香港秦发国际贸易有限公司作为卖方,与...
支持以旧换新 银行业大有可为 ■郝飞 今年年初,国家发展改革委和财政部发布关于2025年加力扩围实施大规模设备更新和消费品以旧换新...
当我们讨论“抗衰”时,究竟在讨... 本文作者:中科创星没有人能抵抗“长生”的诱惑,但要说有什么比“长生”更让人神往,那一定是“不老”。希...
DeepSeek核心高管离职创... 出品|虎嗅科技组作者|宋思杭编辑|苗正卿头图|视觉中国虎嗅从多个独立信源获悉,半年前,某DeepSe...
恒隆广场贴隔壁的安置房开始办证... 潮新闻客户端 记者 徐淑竞 去年年底,潮新闻曾经报道过,位于杭州市中心黄金地段武林广场的回迁安置房—...
暴涨超9%!白银狂飙,“抢夺”... 美东时间6月6日,现货黄金价格下跌超过1.2%,收报3309.47美元/盎司。而在6月7日,国内部分...
全球晶圆代工TOP10,最新出... 本文由半导体产业纵横(ID:ICVIEWS)综合 TrendForce预期Q2前十大晶圆代工厂营收将...
【世界说】美学者揭批“中国冲击... 中国日报网6月9日电 近日,美国《理性》新闻网站(Reason)援引美国企业研究所学者研究称,美政客...
河南新首富王宁 泡泡玛特押对了... 6月9日,泡泡玛特盘中拉升涨超3%,报253港元/股,再创历史新高。截至当天收盘,该公司报250.8...
股票行情快报:美晨科技(300... 证券之星消息,截至2025年6月9日收盘,美晨科技(300237)报收于1.72元,上涨3.61%,...
华为如何驯服AI算力「巨兽」? 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的话题。 在过去的十...
中国汽车行业告别「内卷」,从「... 文 / 崔大宝来源 / 节点财经在我的印象里,中国汽车圈很久没有这么热闹了。多位行业大佬亲自下场,言...
政商两巨头决裂,美股“钱景”如... 头图由豆包生成,提示词:铜牛 闪电近日,美国总统特朗普与商界巨子马斯克公开决裂。双方隔空公开骂战之际...
京东方A“分拆”能源科技上市欲... 导读:二十年后,再次启动子公司“分拆上市”,京东方A面对目前仍被监管层审慎以待的分拆上市政策,也选择...
离谱!高考生OPPO手机闹钟没... 高考当天闹钟没响是什么体验?一位OPPO手机用户就感受了一把!OPPO手机高考闹钟失灵多名网友表示遇...
新华全媒+|物价总体稳定 供需... 新华社北京6月9日电 题:物价总体稳定 供需有所改善——5月份物价数据透视 新华社记者潘洁 国家统计...
北证50指数持续上涨!5只主题... 在触及1500点新高后,北证50成份指数(以下简称“北证50”)走势仍相对强劲。公开数据显示,6月9...
热点轮动加快!沪指冲击3400... 6月9日,市场全天震荡走高,创业板指领涨。截至当日收盘,沪指涨0.43%,深成指涨0.65%,创业板...
深夜!中国资产,大爆发! 昨夜... 中国资产突然爆发。6月9日晚,美股开盘后,中国资产全线爆发,纳斯达克中国金龙指数盘初大涨超2%,两倍...
多股涨停!创新药持续火爆 创新... 2025.06.09本文字数:2444,阅读时长大约4分钟作者 |第一财经 王方然创新药板块再度走强...
收割年轻人的“注册兼职”:刷脸... “线上办理营业执照报酬700元”“亚马逊注册冲量得920元”……近年来,此类“注册兼职”信息在网络上...
亿纬锂能筹划港股上市 (转自:储能与电力市场) 亿纬锂能拟发行H股股票并在香港联合交易所有限公司主板挂牌上市。亿纬锂能将充...
江苏:引导商业银行扩大地方债、... 近日,江苏省人民政府办公厅发布关于印发江苏省实施提振消费专项行动若干措施的通知。若干措施提到,引导商...
*ST中迪:公司股票撤销退市风... 新京报贝壳财经讯 6月9日,*ST中迪公告,公司已向深圳证券交易所提出了撤销公司股票交易退市风险警示...
中美经贸磋商机制首次会议举行,... 北京时间6月9日晚,美股三大指数开盘涨跌不一,道指微跌0.05%,纳指上涨0.14%,标普500指数...
亿纬锂能:筹划发行H股股票并在... 新京报贝壳财经讯 6月9日,亿纬锂能公告,为进一步提高资本实力和综合竞争力,提升国际化品牌形象,满足...
菲林格尔:公司股价已严重偏离基... 6月9日晚间,菲林格尔公告,公司股票自2025年5月30日以来大幅上涨,多次触及股票交易异常波动,公...
港股创新药飙涨!恒生创新药ET... A股三大指数集体上涨,创业板指涨超1%,有超4000只个股上涨。 港股恒生科技指数4月8日以来累计涨...
为什么一只活鸭上百元,一只烤鸭... “鸭子25元一只,每天现做现卖,高峰期一天能卖200多只。”济南街头某烤鸭店的店员向记者介绍道。当地...