刚刚!梁文锋参与发表回顾性论文:DeepSeek首次揭秘V3模型背后扩展方案 梁文锋deepseek来龙去脉 梁文锋更新deepseek
创始人
2025-05-15 22:12:39


DeepSeek刚刚发表了一篇名为《深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考》(Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures)的回顾性论文,梁文锋也是作者之一。这篇论文深入剖析了最新的大模型DeepSeek-V3及其AI基础设施扩展方案,DeepSeek-V3的实践充分证明了硬件-软件协同设计在提升AI系统可扩展性、效率和鲁棒性方面的巨大潜力


强烈推荐精读!

快速解读一下这篇论文

论文开宗明义:软硬协同

文章一上来就点明了当前大模型(LLM)发展的核心矛盾:模型规模、训练数据和算力需求飞速增长,但现有硬件架构在内存容量、计算效率和互连带宽方面都面临严峻挑战。DeepSeek-V3的成功,恰恰证明了“硬件感知模型协同设计”是解决这些挑战、实现大规模经济高效训练和推理的关键。

这篇论文的目标不是重复DeepSeek-V3的技术报告,而是从硬件架构和模型设计的双重角度,探讨它们之间复杂的相互作用,并为未来AI系统的可扩展性、成本效益提供实用蓝图

DeepSeek-V3核心设计揭秘:三大挑战,逐个击破

DeepSeek团队围绕LLM扩展的三大核心挑战——内存效率、成本效益、推理速度——对DeepSeek-V3进行了精心设计

一、内存效率:榨干每一滴显存

首先是低精度模型 (FP8)。相比BF16,FP8直接将模型权重内存占用减半,极大缓解了“内存墙”问题。这一点在后面会详细展开

其次,DeepSeek-V2/V3采用的MLA (Multi-head Latent Attention) 技术,通过一个可共同训练的投影矩阵,将所有注意力头的KV表示压缩到一个更小的“潜向量”(latent vector)中。推理时只需缓存这个潜向量,大幅降低内存消耗。论文给出的对比数据显示,DeepSeek-V3 (MLA) 每token的KV Cache仅为70.272KB,而采用GQA的Qwen-2.5 72B为327.680KB,LLaMA-3.1 405B更是高达516.096KB。MLA的优势可见一斑!


此外,论文也提及了业界其他有价值的方法,如GQA/MQA(分组/多查询注意力)共享KV对,Windowed KV(滑动窗口),以及量化压缩等。并展望了线性时间复杂度的注意力机制(如Mamba-2, Lightning Attention)和稀疏注意力的潜力

二、成本效益:MoE架构

DeepSeek-V3采用了其在V2中已被验证有效的DeepSeekMoE架构(混合专家模型)。MoE的核心优势在于“稀疏激活”:模型总参数量可以非常大,但每个token只激活一小部分专家参数


这使得训练成本显著降低。DeepSeek-V2有236B参数,每token激活21B;DeepSeek-V3扩展到671B参数,每token激活仅37B。相比之下,像Qwen2.5-72B和LLaMA3.1-405B这样的密集模型,训练时所有参数都处于激活状态。从算力消耗对比 来看,DeepSeek-V3每token训练成本约250 GFLOPS,远低于LLaMA-405B的2448 GFLOPS,甚至低于Qwen-72B的394 GFLOPS


MoE模型的低激活参数特性,也使得在个人电脑的AI SoC上也能实现不错的推理速度(如DeepSeek-V2在PC上可达近20 TPS甚至更高),为个性化LLM智能体和本地化部署铺平了道路。使用KTransformers推理引擎,DeepSeek-V3完整模型能在消费级GPU(约1万美元成本)的服务器上跑到近20 TPS

三、推理速度:分秒必争

DeepSeek模型从设计之初就考虑了通过双micro-batch重叠(dual micro-batch overlap)来隐藏通信延迟,最大化GPU利用率。生产环境中还采用prefill和decode分离的架构,针对性优化。

对于MoE模型,专家并行(EP)的All-to-All通信是瓶颈。论文以一个例子说明:若每设备一个专家,一次处理32个token,使用CX7 400Gbps InfiniBand网卡,一次EP(dispatch和combine)的通信时间约为120.96µs。在双micro-batch重叠的理想情况下,每层总时间约为241.92µs。DeepSeek-V3有61层,则总推理时间约为14.76ms,理论TPOT(Time Per Output Token)上限约为67 tokens/s。如果换成GB200 NVL72(900GB/s单向带宽),通信时间降至6.72µs,理论TPOT能飙升到1200 tokens/s!这生动展示了高带宽互连的巨大潜力。

受Gloeckle等人工作的启发,DeepSeek-V3引入了多令牌预测 (MTP, Multi-Token Prediction) 框架。传统自回归模型一次解码一个token,MTP则允许模型以较低成本生成多个候选token并并行验证,类似 speculative decoding。这能显著加速推理。实际数据显示,MTP对第二个后续token的接受率在80%-90%,使生成TPS提升1.8倍。同时,MTP也增大了推理batch size,有利于提升EP计算强度和硬件利用率。

像OpenAI的o1/o3系列、DeepSeek-R1等推理模型,以及PPO、DPO等RL流程,都极度依赖高token输出速度。

低精度驱动设计:FP8混合精度训练的探索

DeepSeek-V3的一大亮点是成功应用了FP8混合精度训练。在此之前,开源社区几乎没有基于FP8训练的大模型。

FP8的优势在于显著降低内存占用和计算量。但其在Hopper GPU上也面临硬件局限性:一是累积精度受限,Tensor Core在FP8累积时,虽然中间结果用FP22存储,但从32位尾数乘积右移对齐后,只保留最高的13位小数进行加法,这会影响大模型训练稳定性;二是细粒度量化开销大,像tile-wise(激活)和block-wise(权重)这样的细粒度量化,在将部分结果从Tensor Core传回CUDA Core进行缩放因子乘法时,会引入大量数据搬运和计算开销。

对此,DeepSeek的建议是:未来硬件应提高累积精度(如FP32)或支持可配置的累积精度;同时,Tensor Core应能原生支持细粒度量化,直接接收缩放因子并执行带组缩放的矩阵乘法,避免频繁数据搬运。NVIDIA Blackwell的microscaling数据格式正是这一方向的体现。

DeepSeek团队还尝试了一种名为LogFMT-nBit(对数浮点格式)的数据类型用于通信压缩。它将激活值从线性空间映射到对数空间,使得数据分布更均匀。但其局限性在于LogFMT数据在GPU Tensor Core计算前仍需转回FP8/BF16,log/exp运算开销和寄存器压力较大。因此,尽管实验验证了其有效性,但最终并未实际采用。他们建议未来硬件原生支持FP8或定制精度格式的压缩/解压单元

互连驱动设计:榨干H800的每一分带宽

DeepSeek-V3使用的NVIDIA H800 SXM节点,NVLink带宽有所缩减(从H100的900GB/s降至400GB/s)。为弥补这一不足,每节点配备了8个400G InfiniBand CX7 NIC


在硬件感知的并行策略上,DeepSeek训练中因NVLink带宽受限而避免使用张量并行(TP),推理时可选择性使用;采用DualPipe算法重叠Attention和MoE计算与通信来增强流水线并行(PP);并借助8个IB NIC实现超40GB/s的All-to-All通信速度以加速专家并行(EP)

模型协同设计方面,由于H800的NVLink(有效约160GB/s)和IB NIC(有效约40GB/s)带宽差异巨大,DeepSeek-V3引入了节点限制路由 (Node-Limited Routing) 的TopK专家选择策略:将256个路由专家分为8组,每组32个专家部署在单个节点上,并从算法上确保每个token最多路由到4个节点。这缓解了IB通信瓶颈。

关于Scale-Up与Scale-Out的融合,当前局限在于GPU SM既要处理网络消息,又要通过NVLink转发数据,消耗计算资源。DeepSeek建议未来硬件应集成统一网络适配器、专用通信协处理器、灵活的转发/广播/Reduce机制、硬件同步原语、动态NVLink/PCIe流量优先级、I/O Die Chiplet集成NIC,以及CPU-GPU Scale-Up域互连。

大规模网络驱动设计:多平面胖树

DeepSeek-V3训练中部署了多平面胖树 (MPFT, Multi-Plane Fat-Tree) Scale-out网络。每节点8 GPU + 8 IB NIC,每个GPU-NIC对属于一个独立网络平面。

MPFT的优势包括:作为多轨胖树 (MRFT) 的子集可利用NCCL优化;成本效益高,用两层胖树即可支持超万个端点;各平面流量隔离,单平面拥塞不影响其他;两层拓扑延迟更低且鲁棒性好。性能分析显示,其All-to-All通信和EP场景性能与单平面MRFT非常接近,在2048 GPU上训练DeepSeek-V3的指标也几乎一致。

在低延迟网络方面,IB延迟优于RoCE,但IB成本高、交换机端口密度低。对RoCE的改进建议包括:专用低延迟RoCE交换机、优化路由策略(如自适应路由)、改进流量隔离/拥塞控制机制。同时,DeepSeek也利用了InfiniBand GPUDirect Async (IBGDA) 技术来减少网络通信延迟。

对未来AI硬件架构的展望

论文最后,DeepSeek团队基于实践经验,对未来AI硬件设计提出了更宏观的思考:

1. 鲁棒性挑战:应对互连故障、单硬件故障、静默数据损坏等问题,硬件需集成高级错误检测机制并提供诊断工具

2. CPU瓶颈与互连:解决PCIe带宽瓶颈、高内存带宽需求、CPU单核性能及核心数问题,建议CPU-GPU直接互连或集成到Scale-up域

3. 迈向AI智能网络:发展硅光子、高级端到端拥塞控制、自适应路由、高效容错协议和动态资源管理

4. 内存语义通信与顺序问题:硬件应支持内建的内存语义通信顺序保证(如acquire/release语义),消除sender端fence

5. 网络内计算与压缩:优化EP的dispatch和combine,原生集成LogFMT等压缩技术

6. 内存为中心的创新:推广DRAM堆叠加速器和System-on-Wafer (SoW)技术。

参考:

https://arxiv.org/pdf/2505.09343

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

相关内容

热门资讯

美国医改、药价与选票 美国的医... 本文来自微信公众号:氨基观察,作者:武月,题图来自:AI生成对于药价,美国已经斗争了30年。1992...
深夜,美股下跌!阿里巴巴大跌8... 北京时间5月15日晚,美股三大指数开盘集体下跌。截至22:50美股三大指数中概股方面,截至22:50...
股市必读:贵州茅台(60051... 截至2025年5月15日收盘,贵州茅台(600519)报收于1632.01元,下跌0.18%,换手率...
霸王茶姬美股成功上市,隐身背后... 撰文:海川;编辑:木心 4月17日,霸王茶姬在纳斯达克上市,发行价28美元,此次IPO募资规模约4....
印尼网友质疑采购“阵风”:希望... 【文/观察者网 刘程辉】印巴冲突成中国武器“试金石”,歼-10C一战斩落“阵风”,也让这一法制战机的...
盘前:道指期货跌0.38% 油... 由于潜在的美伊核协议引发全球原油供应增加的预期,周四油价暴跌近4%。在经历了连续数周的反弹之后,股市...
对抗证监会,拒绝公安局,胆大妄... 紫天科技,这个名字乍一看很唬人,紫色有神秘、超自然的意思,再配上“科技”二字,感觉这家公司干的事情一...
投资者保护案例这10起有看点,... 金通灵和美尚生态财务造假、恒大地产欺诈发行债券、“牛散”使用145个证券账户操纵8只股票等遭严惩和追...
2027年目标千店,绿茶集团为... 作者:江夏原创:深眸财经(chutou0325)4年5次递表,绿茶集团终于即将叩响港交所大门。近日,...
上交所修订发布规范运作指引,推... 上海证券交易所5月15日,上海证券交易所(下称“上交所”)修订发布主板、科创板《上市公司自律监管指引...
失业没事,妈养你 失业没事,妈... 图:Jorey Hurley最近世界静悄悄。特朗普没有作大妖...中美关税战,原以为会撕X一段时间,...
贝壳一季度净收入233亿元,非... 新京报贝壳财经讯 (记者袁秀丽)5月15日,贝壳发布2025年第一季度财务业绩。一季度贝壳总交易额(...
新五丰:拟与科普利信成立合资公... 新五丰(600975)5月15日晚间公告,公司与法国科普利信集团(简称“科普利信”)拟成立合资公司开...
固收“名将”下一站定了!马龙因... 作者 |郑理来源 | 独角金融原招商基金“固收猛将”马龙跳槽的下一站,定了。近日,马龙正式入职天弘基...
第四范式一季度营收同比增长超三... 5月15日,人工智能企业北京第四范式智能技术股份有限公司(第四范式,06682.HK)发布2025财...
寻找确定性 寻找确定性 寻找确... 中国继续“以高质量发展的确定性应对外部环境急剧变化的不确定性”,投资配置方面,内需的对冲和国产替代或...
2025财年第四季度营收同比增... 相比大刀阔斧的“断舍离”,阿里巴巴-W(HK09988,股价128.9港元,市值2.46万亿港元)刚...
早盘大跌!此前5天3板,两股东... 5月15日,市场主要指数集体低开,上证指数开盘跌0.16%,深证成指开盘跌0.28%。 港口航运板...
小摩CEO警告:特朗普关税“余... 戴蒙警告称,全球贸易战虽然暂时缓和,但危机并未解除。 摩根大通首席执行官戴蒙表示,由于关税余波继续冲...
行长,你也不想坐上被告席吧 行... 昨天乃悟刷到一个视频,湖南省株洲市一名女子到当地农业银行帮母亲取钱时,银行工作人员告知需要本人才能办...
扎根一线的刘强东,给京东业绩刷... 「核心提示」时隔十年,刘强东再次亲自为客户送货,京东又找到了熟悉的感觉。作者 |陈法善刘杨5月10日...
新规后信评领域又现灰色操作 新... 作者 | 李览青编辑 | 方海平新媒体编辑丨实习生 张一珂自2021年证监会、交易商协会逐步取消债券...
部分工厂停产员工投诉,娃哈哈回... 红星资本局5月15日消息,今日,陕西娃哈哈乳品有限公司(以下简称“陕西娃哈哈”)两位一线生产员工告诉...
取款人死在银行门口,家属和银行... 人死了,但关于为什么会死,家属和银行的说法却大相径庭,一时间让这桩“取款命案”变得复杂了。事情是由死...
运动相机“老二”IPO:年入3... 定焦One(dingjiaoone)原创见习作者 | 何欣欣编辑 | 金玙璠经历四年IPO长跑的“国...
恒生银行回应裁员传闻:受影响的... 恒生银行恒生银行(0011.HK)回应裁员传闻。近日,有消息称,恒生银行将进行大规模裁员,个别部门削...
小微盘风格强势复苏,热点轮动后... 自4月8日A股市场震荡上行以来,小微盘风格再度席卷而来,超九成小微盘个股实现上涨。数据显示,截至5月...
欲开辟电影之外新“阵地” 儒万... 本报记者 张靖超 北京报道5月13日,万达电影(002739.SZ)发布公告,其子公司北京影时光电子...
最高法联合证监会发布23条意见... 资本市场迎来重磅新规,司法保障资本市场改革发展的“纲领性文件”出炉。为进一步强化司法与行政协同,加强...
【经纬晚班车】2024年证监会... 【晚间热点要闻】中国对巴西等5国实行免签政策自2025年6月1日起至2026年5月31日,对巴西、阿...