DeepSeek 首登《自然》封面:中国大模型创造新历史,做了OpenAI 不敢做的事
创始人
2025-09-18 16:04:59

本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事》


就在今天,DeepSeek的大型语言模型DeepSeek-R1的研究成果,作为封面文章登上了国际顶尖科学期刊《Nature》。


和OpenAI那些动辄上千万美元,这个只花了30万美元训练出来的国产AI模型,曾经不仅一度引发美股震荡,现在还登上了Nature的最新封面。


Nature封面评语


此次登上Nature封面的文章,是DeepSeek年初在arXiv公布的论文《DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,即R1的技术论文。



论文作者名单,梁文锋是通讯作者


虽然大体上和年初那篇类似,但是补充了相当多细节。


正文只有双栏11页,补充材料却来到了83页;而同行评审,就是审稿人与DeepSeek团队就论文某些问题进行讨论的记录(一般叫rebuttal,反驳),也有64页之多。


这些新公开的资料,让我们看到了DeepSeek R1详细的训练流程,以及团队首次披露了,训练R1推理能力的关键成本,仅29.4万美元。


在同行评审的文件中,DeepSeek更是回答了,像是之前质疑R1的成功,是否依赖于「蒸馏」,或者说「抄袭」了像OpenAI等更强模型的输出等问题


我们没有故意加入OpenAI生成的内容,所有训练数据都是通过网页抓取。


为什么是DeepSeek登上Nature封面?


可能你也会想问,DeepSeek R1不算是全球范围里面最强的大语言模型,为什么是DeepSeek登上了Nature。



Nature(自然)杂志是全球影响力最高的期刊,理工类学科常说的CNS即上图中的Cell、Nature、以及Science。而封面的含金量,更是Top中的Top。


在AI行业,和计算机视觉和模式识别类顶级会议CVPR(上图中排名第二)不同,Nature封面有着特殊的象征意义,它不仅是科研成果的认可,更像是一种科学殿堂的最高认可。


过去几年,OpenAI、Anthropic、Google都发布过各种技术报告(technical report),但都没有把自家大模型送上同行评审。原因很简单:


一方面,同行评审意味着要公开更多细节,可能涉及商业机密。


另一方面,大模型的很多宣传容易被质疑,同行评审则要求你必须提供证据、接受外部质询。


而这一次,DeepSeek把R1模型送进了学术体系,让8位独立专家逐条审查,并公开了审稿意见与作者回复。


这不仅让R1的科学价值获得了认可,也为整个行业立下了一个新标杆。大模型不只是公司的黑箱,它们也可以经受专业科学的检验


这是AI走向科学化的历史性时刻,也是DeepSeek为什么能登上Nature封面的重要原因。


开源AI平台HuggingFace的机器学习工程师Lewis Tunstall在审稿时表示,


这是一个非常受欢迎的先例,如果我们没有公开分享,这一过程大部分内容的规范,就很难评估这些系统是否带来风险。


Nature官方也专门发文,呼吁其他公司,也把他们的大语言模型交给同行评审。


在这篇推荐文章里面,Nature编辑专门提到了同行评审的好处。


依赖独立研究人员的同行评审,是平息人工智能行业炒作的一种方式。


和我们常看的技术报告、技术博客(行业内叫做模型卡/系统卡)不同,同行评审不会单向接受信息,而是要确保作者证明他们的主张。就像我们平时看一些大语言模型的发布会,他们都声称自己的模型,在某些基准测试上拿到了第一名。


但同行评审,就能制衡AI开发者,避免让他们选择能最好展示其模型性能的基准测试,来为自己「批改作业」;因为基准测试是可以被操纵,以高估模型的性能


同行评审文件内一些关键的问答,我们节选了一些放在这里。


Q:基础模型(DeepSeek-V3-Base)可能在预训练阶段就接触了大量由其他模型(如OpenAI的模型)生成的推理数据,导致RL的效果被夸大。


A:我们选择了一个在任何高级推理模型公开发布之前,就已经发布的模型Qwen2-7B作为基础模型,实验结果显示,经过我们的纯强化学习方法训练后,Qwen2-7B-Zero的推理能力,远超其原始版本和同期的GPT-4o模型。



这个实验有力地证明了,我们的RL框架能够自主地在未受污染的基础模型上,激发出高级推理能力,而不是简单地复现预训练数据中的模式。


Q:与评估污染相关,但性质不同,我们想知道是否存在某些示例,是使用其他公司模型生成的可能性,正如媒体所暗示的那样。


像是直接或间接从基准测试数据,或互联网获取的数据,有可能用于训练或强化学习的数据集,包含由OpenAI的模型,或其他提供商生成的内容。


这将使DeepSeek的模型成为OpenAI模型的一部分「蒸馏」。


A:我们了解到,模型蒸馏是DeepSeek模型开发中,被广泛讨论的话题。


在预训练阶段,我们承认所收集的网络数据,可能包含由高级模型(如GPT-4)生成的内容。然而,鉴于互联网上合成内容的广泛存在,这在当前的大规模语言模型训练中难以避免。


但是,这篇论文的核心贡献R1-Zero,并未涉及任何来自高级模型的蒸馏。强化学习组件是独立训练的,并且不依赖于诸如GPT-4等模型的输出或指导。


同行评审文件全文链接:https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf


能经得起评审,是因为技术也足够强


除了是首个经过独立同行评审的大语言模型,DeepSeek R1自身的技术突破也毫不逊色。


DeepSeek-R1最核心的贡献是证明了纯强化学习(pure reinforcement learning,RL)可以有效激发LLM的推理能力,无需依赖人类标注的思维路径,自己学会推理。


强化学习框架


传统的大模型提升推理能力,往往需要人类手动提供,大量思考链条(chain-of-thought),让模型模仿。但这样的问题是,需要人工标注,成本高,不可持续;其次是,受限于人类思维,模型只能学人类的套路,难以探索新的推理路径。


R1的方法完全不同,它只给模型一个奖励信号,「答案对了就加分,错了就减分」;不规定中间推理步骤,让模型自己去探索。


结果是,R1在训练过程中出现了类似「自我反思、验证、动态调整」的行为。比如,它会在回答过程中说「等等,我需要重新检查这一步」,这种反思片段就是所谓的涌现式推理能力。



DeepSeek-R1和DeepSeekR1-Zero的基准性能,与不同数据集上的人类得分进行了比较。


在公开测试中,R1在数学竞赛AIME 2024的准确率达到77.9%,远高于人类平均水平,甚至在部分代码和理科推理任务上,超过了GPT-4。


在更详细的补充材料里面,DeepSeek公开了R1的训练细节、如何从R1-Zero进化到R1的具体路径、以及关于R1全面的评估测试,包括多语言、安全和风险控制、稳定性等等。


补充材料链接(通讯作者也是梁文锋):


https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf


由于R1是今年一月份的工作,所以里面的内容,可能也不是DeepSeek或者行业内,目前最新的方法。


但我们可以从这份详细的报告中,看到R1究竟是怎么被创造出来,又是怎么做到了大家都喜欢的「嗯,让我先想一想」推理。


R1-Zero:极致的推理模型


DeepSeek R1的前身,是一个追求极致推理、通过AI模型自主「野蛮生长」诞生的DeepSeek R1-Zero。


R1-Zero训练的起点是DeepSeek-V3 Base模型,这是一个包含6710亿总参数(每次激活370亿)的混合专家(MoE)架构模型,已经在海量的中英文网页,和电子书数据上完成了预训练。


传统的监督微调,会需要手工给出具体的推理轨迹。图中为与代码相关的推理数据中的示例SFT轨迹。


和传统的大模型微调第一步,监督微调(SFT)不同,DeepSeek直接跳过了这一步。他们假设,如果一开始就用人类撰写的标准解题步骤,来训练模型,反而会限制模型的探索空间,模型的性能上限会被我们人类的认知所束缚。


纯粹的强化学习(Pure RL)


研究团队为模型设计了一个极其简洁的强化学习框架,只告诉它最关键的规则。


任务格式:模型被要求以固定格式输出,即必须先生成被think标签包裹的「思考过程」,然后再输出被answer标签包裹的「最终答案」。


奖励信号:这是整个方法论的精髓。奖励信号完全基于规则,且只关心结果。


准确率奖励:answer标签里的最终答案是否正确?对于数学题,就看答案是否与标准答案完全一致;对于代码题,就看生成的代码能否通过所有预设的测试用例。


格式奖励:思考过程是否被正确地封装在think标签内?


关键点:整个过程中,对于think标签里的思考过程本身,没有任何对错评判。模型可以天马行空,用任何它认为有效的方式去思考,只要最终答案正确即可。


能力的涌现与自我进化


在这种「只问结果、不问过程」的训练下,R1-Zero展现了惊人的进化:



训练过程中DeepSeek-R1-Zero的AIME准确率和输出长度性能的提升:在AIME 2024数学竞赛基准上,模型的解题准确率,从最初的15.6%一路飙升至77.9%,远超人类参赛者的平均水平。


思考的深化:模型自发地学会了用更长的思维链(Chain-of-Thought,CoT)来解决问题。其平均响应长度随着训练稳步增加,从几千个token增长到上万个token,意味着它在思考上花费了更多时间。


高级策略的涌现:最令人感到惊喜的是,模型自主发展出了高级推理策略,如自我反思(self-reflection)和系统性地探索替代方案。


训练过程中推理行为的演变。训练过程中的代表性反思词频率(左);单词「等待」在整个训练过程中的具体出现模式(右)


论文中一个经典的顿悟时刻(Aha Moment)显示,模型在解题中突然输出「等一下……」,然后重新评估并修正了自己的解题路径。


补充材料中的图表也用数据证明,在训练过程中,模型使用「等一下」、「这里出现了错误」、「我需要验证一下」等反思性词语的频率显著增加。



模型学会以拟人化的语气重新思考,DeepSeek说,这对我们团队来说也是一个顿悟时刻,见证了强化学习的力量与美感。


R1:将推理能力融入产品


R1-Zero证明了纯强化学习的巨大潜力,但它还不是一个能直接面向用户的成熟产品。


它存在明显的问题,思考过程的可读性很差,有时会在一个思维链中混用中英文,并且由于训练完全聚焦于推理,R1-Zero在写作、开放域问答等通用能力上表现平平。


于是,研究团队设计了一套精密的多阶段训练流程,目标是将R1-Zero的强大推理能力与优秀的用户体验结合起来,最终诞生DeepSeek-R1。


这个过程可以清晰地分为四步,每一步都对应着一个中间模型(Dev1,Dev2,Dev3)。



DeepSeek-R1通过强化学习,激励LLMs进行推理,展示从R1-Zero到Dev1,Dev2,Dev3,再到最后的R1。


第一步:冷启动SFT(诞生R1-Dev1)


解决语言混用和可读性差的问题,教模型好好说话。


首先,从R1-Zero生成的大量推理轨迹中,筛选出那些答案正确,且格式工整的样本。然后,动用人类标注员和DeepSeek-V3模型,将这些原始的、机器化的思考过程,改写成更符合人类对话习惯、采用第一人称的流畅文本。


这个过程产生了数千条高质量的「冷启动」数据;最后,用这些「冷启动」数据对基础模型进行监督微调(SFT)。


R1-Dev1在指令遵循等通用能力上大幅提升,但因为冷启动数据集规模有限,它在AIME等高难度推理任务上的性能反而有所下降。


第二步:第一轮强化学习(诞生R1-Dev2)


在保持人话风格的基础上,重新强化其推理能力。


对R1-Dev1进行强化学习。这次的奖励信号除了基于规则的准确率奖励外,创造性地加入了一个语言一致性奖励。如果模型在处理中文问题时,思维链中中文词汇比例越高,奖励就越多,以此来纠正语言混用问题。


结果R1-Dev2的推理能力(尤其在数学和代码上)得到显著增强,恢复甚至超过了R1-Zero的水平。


第三步:大规模监督微调(诞生R1-Dev3)


全面扩展模型的知识面和通用能力,让它成为「通才」。


将约60万条由R1-Dev2生成的推理数据,与约20万条非推理数据(如写作、通用问答、代码工程等)混合在一起,进行一次大规模的SFT。


结果是R1-Dev3在AlpacaEval 2.0等通用和代码工程基准上获得了显著的性能提升。



在LiveCodeBench数据集中,不同难度问题上DeepSeek-R1各阶段的实验结果。


第四步:第二轮强化学习(最终形态DeepSeek-R1)


进行最终的精装修,使模型行为与人类偏好(有用性、无害性)对齐。


方法:对R1-Dev3进行最后一轮全面的强化学习。这次的奖励系统最为复杂,是一个组合。


对于推理任务,继续使用基于规则的奖励。对于通用任务,则启用基于模型的奖励。


DeepSeek团队为此专门训练了两个奖励模型,一个「有用性」奖励模型,和一个「安全性」奖励模型,它们基于人类偏好数据来为模型的回答打分。


最终的DeepSeek-R1诞生。虽然它的推理能力只有边际提升(因为此前已足够强大),但在通用指令遵循和用户偏好基准上提升巨大,AlpacaEval 2.0提升25%,Arena-Hard提升17%。


此外,论文中还提到了关键的技术GRPO算法,整个强化学习过程由DeepSeek自研的GRPO算法驱动。相比传统的PPO算法,GRPO通过「组内竞争」来估算优势,它不需要训练一个额外的价值模型,从而简化了流程并降低了资源消耗。


最终R1的训练成本,也是空前的节省,只花了29.4万美元。



几周前,a16z的合伙人Martin Casado说,估计80%的湾区初创公司,都在基于中国开源模型进行开发。下方的图表显示,在HuggingFace上,国产模型的下载量已超过美国模型的下载量。


图片来源:


https://www.interconnects.ai/p/on-chinas-open-source-ai-trajectory


登上Nature封面,对DeepSeek来说可能是一个极大的认可;但也许,这只是一个开始。


相关链接汇总:DeepSeek Nature论文:https://www.nature.com/articles/s41586-025-09422-z补充材料:https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf同行评审:https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdfNature编辑文章:https://www.nature.com/articles/d41586-025-02979-9Nature新闻:https://www.nature.com/articles/d41586-025-03015-6DeepSeek原arXiv论文:https://arxiv.org/pdf/2501.12948


欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知


我们正在招募伙伴


简历投递邮箱hr@ifanr.com


✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

相关内容

热门资讯

广西北海全域低空经济发展公司登... 企查查APP显示,近日,广西北海全域低空经济发展有限公司成立,注册资本2000万元,经营范围包含:私...
党员先锋季⑥|降本增效稳固根基... 为落实集团2025年度经营工作会议决策部署,深入推进“四步同进、四战同打”战略实施路径,有效应对20...
9月17日重要资讯一览 重要的消息有哪些 财政部:1—8月全国一般公共预算收入同比增长0.3% 财政部发布2025年1—8月...
如何利用成长心态获得长期成功? 在上一期文章《如何才能“活出自我”?》中,我们深入探讨了“内在成长”的本质。这期文章,我想聊聊一个对...
一次“尴尬”的“风险管理式降息... 美联储如期降息25个基点,这是一次典型的“风险管理式降息”,但又因经济预测和降息路径形成反差而略显“...
黄金股走低,黄金股相关ETF跌... 黄金股走低,湖南黄金跌超4%,老铺黄金跌超3%,山东黄金、赤峰黄金跌超2%。 受盘面影响,黄金股相关...
地方政府开始提前还债了 继投融资平台提前兑付城投债后,地方政府也开始提前还债了。 2025年9月9日,陕西省财政厅官网发布公...
转让利率最高超3%!大额存单遭... 近日,某民营银行为两款大额存单产品开启“预约排队”模式,因利率较高而排队至7日后的消息引发市场关注。...
市值重回3万亿港元,阿里正在重... 21世纪经济报道记者董静怡 实习生朱祚钰2025年的阿里巴巴,正经历一场“大象转身”。9月17日,阿...
海底捞才是星巴克的soulma... 星巴克中国业务的出售案,只差临门一脚了。问题是,这最后一脚,该由谁来踢?博裕资本、凯雷集团、EQT与...
一款药物引爆资本市场,药捷安康... 本文来源:时代周报 作者:闫晓寒经历9月16日在港股的“惊魂一日”,药捷安康-B(02617.HK,...
特斯拉机器人获得10,000台... 机器人拯救特斯拉“未来,特斯拉约80%的价值将来自机器人Optimus。”马斯克在推特上如此说道。图...
没销量都白扯!2025中国皮卡... 在我国,皮卡汽车从来不是主流车型。这是因为它被划归到了商用车范畴,基本上与规模巨大的乘用车市场无缘了...
懂你所需 为你而想:稠州银行荣... 从“鸡毛换糖”走街串巷的吆喝,到如今万商云集的小商品集散中心,义乌,不断倾听时代的需求,哺育着浙江稠...
外资买房限制放宽不意味着热钱投... 本文来自微信公众号:每日经济新闻 (ID:nbdnews),编辑:程鹏杜波,作者:每经评论员日前,国...
上海建工和中芯国际,股市的两种... 静静看市场!兜兜转转大半个月了,上证指数还在3800-3900区间里震荡。你说,A股是全面牛市吧,拉...
海底捞儿童餐标注“预加工”,工... 红星资本局9月18日消息 近日,有消息称,海底捞(06862.HK)开始在儿童餐中标注“预加工”字样...
被传开放专卖店经营权 茅台、五... 中国商报(记者 周子荑 文/图)近日,针对相关酒企“专卖店开放经营权”的问题,贵州茅台和五粮液相继进...
A股跳水原因找到了!证券出现天... 我这周一开始就在不断提醒大家,当前全球金融市场充分消化了美联储降息预期,要谨防资金兑现,昨天的文章我...
比工业富联还火的巨头,横空出世... 跟川普闹掰后的马斯克,最近在特斯拉上的参与感越来越强了。最近,特斯拉董事会跟马斯克搞了个超级股权激励...
8月份证券交易印花税同比增长2... 9月17日,财政部发布《2025年1—8月财政收支情况》。其中一般公共预算收入情况显示,今年1月份至...
餐饮加盟商,不再为“大牌”买单... 加盟展会一直是创业者观察行业风向、寻找投资机会的重要窗口。近期,红餐品招实地走访了一场线下大展,采访...
“数字+产业+场景”——重庆农... “从3月底至今,我一直在思考,怎样才能带领重庆农商行通过进一步全面深化改革,实现资产结构优化、新旧动...
美联储宣布降息,告诉我们5大信... 正如普遍预期的那样,9月17日,美联储宣布将联邦基金利率目标区间下调25个基点到4.00%至4.25...
友升股份IPO:经营依赖大客户... 近日,上交所官网显示,上海友升铝业股份有限公司(以下简称“友升股份”)的第二次“闯关”已注册生效。据...
服务消费如何实现“好上加好”?... 服务消费是促进民生改善的重要支撑,也是消费转型升级的重要方向。近日,《关于扩大服务消费的若干政策措施...
买大的安踏们,崛起的第三极 本文来自微信公众号:亿邦动力 (ID:iebrun),编辑:董金鹏,作者:廖紫琳今年8月,有77年历...
19条举措扩大服务消费 专家:... 9月16日,商务部等9部门发布《关于扩大服务消费的若干政策措施》(以下简称《政策措施》),从培育服务...
美联储降息25个基点,A股三大... 9月18日,A股三大指数集体收跌,截至收盘,上证指数报3831.66,跌1.15%;深证成指报130...
从内贸天花板到利用AI出海,9... 吴志芳是一个典型的潮汕商人。在她看来,只要有机会,就要试试看,只有出现问题,才能解决问题。2019年...