DeepSeek开年发布新论文:提出全新mHC架构,梁文锋现身作者名单
开心田螺
2026-05-10 21:39:13
1月1日消息,DeepSeek发布了一篇新论文,提出一种名为mHC(流形约束超连接)的新架构。该研究旨在解决传统超连接(HC)在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。据介绍,mHC能够将HC的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率。实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性。DeepSeek预计,mHC作为HC的一种灵活而实用的拓展,将有助于深化对拓扑架构设计的理解,并为基座模型的演进指明富有前景的方向。这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek创始人梁文锋也在作者名单中。(广角观察)

相关内容

热门资讯

脱口秀加速分化:挺女性怜牛马的... 文 | 娱乐资本论,作者 | 莉拉“你最喜欢的脱口秀演员是谁?”早几年若在北上广的地铁上抛出这个问题...
京东一日“三连投”机器人,具身... 文|高见pro7月21日,京东宣布投资了三家具身智能机器人公司:众擎机器人、千寻智能和逐际动力。一日...
当郎朗的琴声遇上国台的酒香:一... (图源:国台酒业,下同)美酒与顶尖艺术的交融,自古以来就是一场极致的盛宴。7月20日,“国台酒·郎朗...
诚迈科技发布全栈信创矩阵 助力... 深耕技术,打造行业级“好用”解决方案十九年来,诚迈科技始终专注于智能终端、智能汽车、物联网等领域的操...
2025年二季度文旅集团投融资... 文 | 迈点​2025上半年,国内文旅市场复苏进程持续推进,居民旅游消费信心稳步恢复,旅游已回归大众...