AGI的不归之途_财经热点

AGI的不归之途

创始人

2025-06-03 08:03:58

AGI，即通用人工智能，正踏上一条不归之途。它犹如一艘在未知海域航行的巨轮，不断探索着智慧的边界。一方面，AGI 拥有强大的学习和解决问题能力，能快速适应各种环境和任务，为人类带来前所未有的便利与创新。但另一方面，其发展也带来诸多挑战。一旦 AGI 达到一定高度，可能超越人类的控制，引发伦理、安全等一系列问题。它或许会在技术的驱动下一路疾驰，改变世界的同时，也让人类陷入对其未来走向的深深担忧，这条不归之途，既充满希望又暗藏危机。

转眼之间，2025年即将过半。上半年OpenAI o3、Gemini 2.5 pro、Grok 3 mini和Claude 4的推出，以及智能体MCP、A2A等协议的推出和融合，让前沿大模型、智能体、应用的进展再次提速。

智能体接管人类工作的时长，成为观察AGI进程的又一个重要视角。硅谷研究机构METR刻画出了智能体完成任务复杂程度每7个月翻倍的曲线，Claude-opus 4可以连续工作7小时。从初级白领工作开始，智能体接管的任务会越来越多。

智能体似乎正在真正解除鲍莫尔病——一个在传统经济学中的悖论，即技术进步无法提升医疗、教育等劳动密集服务业的劳动生产率。Anthropic创始人阿莫迪（Dario Amodei）发出了耸人的警告，智能体将很快取代一半的初级白领工人，一人独角兽公司将在2026年出现。

这一切在硅谷的科技巨头，尤其是在科技七雄中，正在开始发生。它们一方面增加AI基础设施的投入，加强顶尖AI人才的争夺，一方面在大量裁撤可替代的工作岗位。AI的超级独角兽这里，OpenAI的年化收入达到百亿美元，Anthropic的年化收入半年内从10亿美元增加到30亿美元。在一些AI应用的垂直领域，如编程、产品开发与设计、招聘、营销、客服、医疗、教育等领域，开始出现一些早期的规模产出。

与此同时，关于AI产生自我意识、开始对人类隐瞒、欺骗人类、甚至拒绝执行人类指令的迹象，开始在这些新发布的模型中出现。深度学习之父、诺奖得主辛顿再次发出AI统治并威胁人类文明存在的警告。《AI 2027》预测，中美两国的超级智能决定合作，欺骗了各自国家的治理机制，酿成文明灭绝级的灾难。

从全球来看，与美国日趋激烈但也趋同的模型发布竞赛相比，上半年更重要的里程碑事件，发生在中国。

5月底，R1 0528性能超越Gemini 2.5 pro，进一步逼近OpenAI o3。R1 0528仍然建立在V3/R1的基座之上，这是一次后训练带来的性能跃升。这件事情的意义在于，R1仅在一代之内，同时实现了对OpenAI两代前沿推理模型的追赶，o1和o3。创新之处在于，DeepSeek是开源的，是在缺乏算力的基础上训练出来的，而且更具成本优势。所以在相同的分数上，专业机构更乐意给予DeepSeek更高的评价。

上半年中国确立了在开源领域的优势。通义千问在2024年9月即已经开始超越Llama 3，DeepSeek R1从2025年初即开始赶上o1。Llama 4推出后，并没有改变开始形成的DeepSeek与通义千问之间在性能上互卷的格局。

互联网女皇米克尔（Mary Meeker）发出了第一份AI趋势报告。她从PC、互联网、移动、云计算来看AI，认为所有后来的技术，都是之前技术的“复利”，AI也不例外。所以，押注“乐观”往往是最值得的投资之一。

目前全球仍有26亿人没有接入互联网，米克尔看好更低成本的卫星互联网，加上直接带有AI功能的网络体验。“想象一下，一个‘首次上网体验’不再是输入关键词到搜索引擎，而是与一台能与你对话的机器交流。想象一下，完全跳过传统的应用程序层，直接通过一个由智能代理驱动的界面来统一管理不同的技术平台，同时理解用户的语言、语境与意图。”

美国科技七雄中和其他科技巨头，除苹果之外，几乎所有的创始人都亲自操刀或深度参与这场技术革命。中国的科技巨头，如阿里、腾讯、字节、百度等，创始人已经开始真正成为发动机。

米克尔进一步延展了这种领导力：“AI领导力可能带来地缘政治领导力——而非相反。”

报告认为，这一次中国的响应速度，要明显快于1995年时的互联网革命。全球AI竞争真正启动的标志，是中国DeepSeek的发布（2025年1月）等事件。

Artificial Analysis发布的二季度分析报告显示，中国与美国前沿大模型的差距，已经从ChatGPT发布时的两年，到今年上半年的不足三个月。而且中国在所有的AI前沿系统，从大语言模型，推理模型，到所有模态的生成AI模型，都已经建立起与美国全面对标竞争的态势。

由于中国更大的人口及市场规模，美国比中国更需要全球用户和市场。实际上ChatGPT的最重要的用户基数来自亚洲，如印度、印尼、巴基斯坦和越南这样的互联网开放的人口大中型国家。

大模型及AI之于社会经济与地缘政治的颠覆，如此之广、如此之深，以至于任何身在其中或暂未波及的个人、企业与政府，都或亢奋、或恐惧于正在到来的未来。而在形形色色的有关AI的未来中，AGI又拥有最高的威慑力。

与其说大家在追逐AGI的未来，不如说，AGI已经锁定了大家的未来。

上半年备受期待的GPT-5和DeepSeek V4/R2都还没有出来，但大致轮廓已经依稀可见。或许OpenAI与DeepSeeK也只是AGI浩瀚冰山的一角，单飞后的OpenAI黑帮们，合计估值数百亿美元，它们对AI如何更好地“思考”的探索，也将逐步浮出水面。已经非常趋同的大模型，还会有哪些超越当前经典架构的悬念，会gradually and suddenly吗？

OpenAI与DeepSeek

今年4月初，奥特曼一句“我们能把GPT-5做得比原先想象的更好”，宣告了它的正式跳票；它将在o3和o4-mini发布后的几个月后推出。从OpenAI的几次发布会与访谈中，我们已经可以勾勒出GPT-5大致的模样。

它最有可能是一个推理与生成相统一的原生的多模态大模型。今年2月，奥特曼就透露过GPT-4.5将是最后一个非思维链模型，暗示GPT-5天生就整合了o系列的推理功能，既适于高情商地交谈，也适于理性地思考。3月，自回归的图像生成被原生地嵌入到GPT-4o中。5月，在发布编程智能体Codex后，OpenAI谈到为了减少模型切换，未来计划将它与Operator、Deep Research和Memory整合到一起。

很难让人不怀疑，是不是DeepSeek的冲击太大，逼得OpenAI不得不陆陆续续地将原本属于GPT-5的部分功能，拆分出来发布了。不妨回忆一下，去年这个时候，AI大神Ilya Sutskever从OpenAI离开，奥特曼就暗示过GPT-5推迟发布；当时对GPT-5的描述是，将注重“与世界更深入地整合”。至少从那一刻起，人们就怀疑当时GPT-5已经进入后训练阶段了。

由于GPT-5迟迟不现身，曾让硅谷品尝到苦涩教训的中国厂商DeepSeek，再次被寄予了厚望，甚至不仅仅是技术层面的，还有地缘层面的。就连法国AI希望之星Mistral AI也因此相信，既然“中国的Mistral”能行，那么自己也能行。市场期待DeepSeek能尽快拿出更高性价比的V4模型，或媲美o3的R2模型，当然，它们都必须是不折不扣的开源可商用的模型。

DeepSeek的下一代前沿模型，并非毫无痕迹可寻。代码与数学，多模态与自然语言本身，三者是DeepSeek创始人梁文锋押注的三个方向。DeepSeek团队一直在自然语言模型之外的其他分支上探索，包括今年更新过一轮的数学定理证明模型Prover与自回归的统一多模态理解与生成模型Janus等。去年，成熟度最高的代码能力，已经融合进去了，下一代模型很可能就是原生多模态。

V4或者R2，至少对应着新的注意力机制创新的工程化与商业化。全新的NSA（原生可训练稀疏注意力）机制，支持端到端的训练，而且硬件对齐友好，解决了此前很多稀疏注意力机制只在特定阶段受限起效的问题，为用户带去更长的上下文；名为BSBR（带块检索的块稀疏注意力）的技术，可以高效捕捉与检索长期记忆。对“记忆”的完善，意味着仓库级代码生成、多轮智能体间互动以及科研深度的推理能力。

DeepSeek之于整个AI生态，尤其是中国的AI生态的意义，不仅仅在于它会回答下一代模型怎么样，还会回答适配下一代模型的基础设施怎么样。年初NSA论文里提到了“基于Triton实现硬件对齐的稀疏”，为算法从CUDA中解耦出来提供了可能性。

值得注意的是，尽管遭遇DeepSeek釜底抽薪般的挑战，ChatGPT的用户增长及时长，都迎来了一次爆发。这使我们意识到，能提升模型的技术上限，并不意味着能做出好的应用和体验。DeepSeek无志于此，但是谁又能用开源的模型做出真正杀手级的庆用呢？这可能无关DeepSeek，但它的确是摆在中国AI创新者面前的一道命题。

强化学习与思维链

“董事会政变”至今，不少OpenAI元老成员纷纷自立门户，资本相信他们将探索出有别于“传统大模型”的AGI之路，慷慨解囊。Ilya Sutzkever的SSI估值已达320亿美元，Mira Murati的Thinking Machines Lab估值也达到了90亿美元。它们几乎没有可以公开验证的产品，甚至连可供公开讨论的技术路线都付之阙如。

关于SSI的可证实的消息相当少。在社交媒体平台上，Ilya Sutzkever与SSI的时间线都停留在一年前；公司官网也没有更新。不过，放心，SSI的研发仍在推进，而且用的更多的是谷歌的TPU。作为一家定位为“纯粹的研究机构”，它短期内“不会销售AI产品或者服务”，但它会向同行们汇报一下成立一年来的进展吗？

关于AGI，Ilya向外界传递过的最明确的信号，就是基于扩展定律的大模型预训练已死。他最早信仰扩展，也最早意识到它的瓶颈。去年，他暗示自己正在寻找新的范式，“现在，在正确的方向扩展，比什么都重要”。当然，他将最后的成果称为SSI，即安全的超级人工智能。

它会与强化学习有关吗？Ilya曾专注于强化学习；DeepSeek也发现强化学习存在aha时刻；而Anthropic的Dario Amodei，则在这两年里反复强调，强化学习威力强大，但又带来诸多安全问题，目前面临AI可解释性的紧迫性。也许，SSI打算用强化学习训练出一个既强大又安全的超级人工智能？

Thinking Machines Lab已经成立3个月。这家集聚了大量OpenAI元老成员的初创企业，“致力于通过论文发表和代码发布来推进科学进步”的初创企业，至今没有预印本论文或产品发布。好在该公司的联合创始人Lilian Weng最近发了一篇长文，另一位联合创始人John Schulman也参与了文章修改。这篇凝聚了公司高管思想的文章，剖析的是大模型的推理能力从何而来，如何让大模型像人一样通过“多想一会”而变得更聪明。这可以说非常AGI了。

文章最后留下了几个开放性的问题，包括如何在无标准答案的情景下安全地让模型自我纠错，以及如何把推理阶段的增益蒸馏回基础模型，等等。

目前，人们确实已经意识到，“想多久”与“怎么想”都很关键。从产品的角度，无论是OpenAI还是Gemini，都给了用户以设定“思考”上限的权力。这能在简单问题上节省不少算力成本，而且思考越久也不见得准确率就一定更高。但这仍然不是AGI想要的，既然是AGI，应该由AI来感知与规划自己应该思考多久。

在某种意义上，这些离开的OpenAI的大佬们，都在思考有关如何让AI更好地“思考”的问题。Ilya认为AI自己可以决定从大量可能的答案中选取最好的那个，“它想得越深，就会越不可测”；而Lilian Weng则认为对“测试时思考”与“思维链”的研究，尤其是对那几个开放性问题的回答，将推进构建未来的AI系统。

程序合成与扩散文本生成

今年以来，程序合成（program synthesis）与文本生成扩散（Diffisuion）的早期探索也浮出水面。

深度学习框架Keras的创建者François Chollet，和AI SaaS公司Zapier联合创始人Mike Knoop，先后联手创办了AI测评非营利组织ARC Prize Foundation，以及探索AGI的研究实验室NDEA。他们不认为o3具备人类水平的智能，无法很好适应之前从未见过的新问题，算不上AGI。

也许是在不断测试前沿模型中，两人终于意识到，不突破传统范式的局限性，就无法真正抵达AGI。“我们正处于科学历史的关键时刻，世界值得每一种直接、独特的尝试来构建AGI”，它就是程序合成（program synthesis），能让人工智能仅通过少量示例，就对之前未见过的问题实现泛化。它也已经是每个前沿AI实验室如今都开始探索的一项技术。NDEA相信，现在正处于程序合成的AlexNet时刻。

与在一串离散的数据中猜测最符合概率的数据不同，程序合成可以根据已知的线索找到逻辑正确的程序。这家公司时不时地在X上分享与程序合成相关的技术论文。最近的一篇是来自谷歌DeepMind的科学编程智能体AlphaEvolve。这几天，陶哲轩惊叹它为解决数学难题提供了久违的“加速度”。NDEA认同AlphaEvolve的内在思路，正是程序合成的其中一种实现形式。

（说明：AlphaEvolve是如何合成最佳程序的。）

同样是谷歌DeepMind，最近还尝试了将扩散模型从图片生成用到了文本生成上，在最近的I/O大会上拿出了Gemini Diffusion；正如OpenAI将图片生成从扩散模型带到了自回归模型。在传统范式逐步遭遇扩展定律的边际放缓后，大家都在尝试不同技术之间新的排列组合。

作为一款实验性的产品，Gemini Diffusion的表现还不错。它速度更快，每秒输出近1500 token，性能还不亚于Gemini 2.0 Flash-Lite。但谷歌没有披露它的更多细节。

不过，谷歌不是第一个这么做的。很多人看好这条路线。某种程度上，它更像人类的思维模式，不是一次写一个词，而是先勾勒出思路，然后渐进地完善带掩码的文本，直到形成连贯的文本。它更具全局注意力，还能解决传统自回归模型无法逆步思考的顽疾。如果愿意付出更高的算力成本，就可以做到比自回归模型更高的准确率。

今年2月，中国人民大学发布了大型语言扩散模型LlaDA-8B。很快，UCLA联合Meta推出了d1，港大联合华为诺亚推出了Dream-7B，清华北大联合字节跳动推出了Mmada，将探索文本扩散生成的边界，延伸至观察它在规模扩展、推理能力、原生多模型统一架构等领域。看起来，这些科技巨头尽管放缓了对“暴力美学”的追求，但都不排斥让团队成员匀出一点精力，去尝试下新的技术路线。

（说明：文本扩散可以比自回归生成更快更准确）

不过，目前这些研究主要仍然围绕参数规模8B大小的模型展开，没有验证其在更大参数规模下同样可以扩展。这项技术也面临如何更高效地在预训练中平衡“扩散步骤或噪声增加策略”的难题。

下半年更值得关注的，还是智能体的应用，它的商业模式的建立。与移动互联网时代不同，AI智能体正面临着一个前所未有的竞争格局。

所以，下半年即将看到的是AI研究及应用的高收入增长+高现金消耗+高估值+高投资投入，包括中国的科技大厂都宣布增加资本支出，准备放手一搏。这对消费者而言是好消息，但是对其他方面，还有待观察。

米克尔经历了互联网的赢家通吃的时代，但是，她认为AI智能体时代未必如此，AI商业化的下一阶段，也许并不是“赢家通吃”的竞争，而是一次融合与重构：

横向平台强调“广度”，跨职能整合知识与工作逻辑；专业厂商则深耕“深度”，提供能真正理解合规、合同与客户意图的AI。

问题不在于“平台”还是“专家”谁能胜出，而在于谁能抽象出正确的技术层、掌握用户界面，并主导“工作的逻辑”。

在AI时代，变现的路径不再仅仅取决于使用频率，而将取决于注意力、语境与控制权的归属。

但在地缘政治上却未必如此。全球AI竞争的核心是美中之间的战略博弈。米克尔报告认为，虽然美国公司在创新、芯片、云部署等方面占据领先，中国也在开源社区、国家级基础设施和政府主导的协同方面快速推进。

“两国都将人工智能视为经济杠杆，也视为地缘政治影响力的来源。”

上一篇：欧盟起草对俄第18轮制裁措施主要针对俄能源收入欧盟对俄罗斯第18轮制裁内容欧盟对俄第16轮制裁详情

下一篇：“银发族”拯救KTV？ “银发族”拯救KTV？鎷晳ktv

AGI的不归之途

相关内容

热门资讯