小扎砸9位数挖AI 大神、杨立昆发布世界模型，被群嘲的开源旧王要反击了_财经热点

小扎砸9位数挖AI 大神、杨立昆发布世界模型，被群嘲的开源旧王要反击了

创始人

2025-06-12 15:22:41

扎克伯格豪掷九位数重金挖掘 AI 大神，这一举措引发了广泛关注。与此同时，杨立昆发布了世界模型，曾被视为开源领域的“旧王”。然而，他却遭遇到了群嘲。如今，这位“旧王”似乎要展开反击。他凭借着深厚的技术积累和对开源理念的坚守，或许会拿出令人瞩目的成果来证明自己的价值。这一场开源领域的风云对决，究竟谁能笑到最后，令人拭目以待。无论是扎克伯格的巨额投入，还是杨立昆的反击之举，都将对 AI 领域的发展产生深远影响。

本文来自微信公众号：APPSO （ID：appsolution），作者：发现明日产品的，原文标题：《小扎砸 9 位数挖 AI 大神、杨立昆发布世界模型，被群嘲的开源旧王要反击了》

Llama 4的折戟沉沙没有让Meta知难而退，反而坚定了All In AI的决心。

最近，创始人扎克伯格亲自操刀组建「超级智能」团队，重金投资Scale AI、以及砸9位数挖角Google、OpenAI的顶级科学家，也因此抢占了这几天的国际头版头条。

就在今天凌晨，Meta也开源了最新的重量级模型——V-JEPA 2。

不同于市面上的写作或聊天类AI，V-JEPA 2的目标是让AI能够看懂世界、具备物理推理能力，并在完全陌生的环境中自主完成一系列实际操作任务。比如识别一个没见过的物体，走进厨房，准确地把它放到目标位置上，全程无需手把手训练。

图灵奖得主、Meta首席科学家Yann Lecun也亲自出镜，为V-JEPA 2背书，强调让机器理解物理规则的重要性，认为世界模型能够拥有像人类一样理解世界的常识，不靠海量试错，也能在真实物理世界中行动自如。

V-JEPA 2：现实世界的操作系统，正在加载中

过去两年，关于AI未来的发展路径，业界说法众多，有主张AGI、有指向ASI，也有Yann Lecun所提出的AMI。

所谓AMI强调AI不应仅依赖语言处理能力，需要具备对现实世界的抽象建模能力，通过观察多模态数据（如视频、音频）形成内部世界模型，从而理解物理规律。

也就是说，要实现AMI就不能只靠「嘴」，还得有观察世界、理解变化、做出决策的能力，而V-JEPA 2正是Meta研究团队在这个方向上押下的筹码。

它的基础，是Meta在2022年提出的JEPA架构，也就是联合嵌入预测架构，旨在通过预测抽象表示而非生成像素或文本，提升模型对物理世界的理解能力。早期的研究表明，JEPA在图像、3D点云（3D Point Cloud）等模态上表现不俗。

据介绍，V-JEPA 2拥有12亿参数，而它最核心的特点还是围绕「预测」，不只是被动识别视频画面中的物体和动作，更能基于画面推测接下来会发生什么。

举例而言，当一个球被抛到空中，它会因为重力的作用落下，而不会飘在半空、突然掉头，或者变成一个苹果。这种物理直觉，显然不是靠堆数据砸出来的，而是更人类早在学会说话之前就凭借观察建立起的「世界常识」。

一贯抨击LLM路线的Yann Lecun曾锐评当前的LLM不如猫。在他看来，LLM通过预测下一次token生成内容，擅长处理语言符号，但终究无法跨越到对物理世界的真实理解。

可以说，现实世界的物理直觉是人类日常行为的底层支撑逻辑，比如穿过一条人流密集的街道，我们知道该往哪里躲避行人；做饭时，我们知道锅什么时候会烧干。这种内在世界模型就像一个模拟器，帮助我们预测假设行为的结果，并做出最佳决策。

Meta试图用AI构建出一种「模拟器」，也就是真正行动前能先在脑中推演一遍结果再行动，V-JEPA 2是实现这一目标的关键一步，可简单划分为三个步骤：

理解：能从观察中识别物体、动作、运动等信息；

预测：能够预判世界如何演变，或在某个动作发生后世界如何变化；

规划：基于预测能力，制定实现特定目标的行动序列。

基于看懂、想明白、再动手这一整套的闭环，V-JEPA 2的训练流程分为两阶段：

第一阶段是无动作预训练。

Meta研究团队使用超过100万小时的视频和100万张图像，用自监督形式训练编码器（Encoder：输入原始视频，输出代表世界状态语义信息的嵌入；）和预测器（Predictor：基于视频嵌入和额外上下文，生成未来状态的预测嵌入）。

不需要人工打标签，模型就能学会图像间的时序关系，物理的交互逻辑和物理约束。在这个阶段，V-JEPA 2就已经展现出强大的感知和理解能力：

在Something-Something v2动作识别任务中，V-JEPA 2通过轻量注意力机制的解读器达到了卓越表现；

在Epic-Kitchens-100的1秒未来动作预测任务中刷新纪录；

联合语言模型后，在视频问答基准如Perception Test和TempCompass上也表现领先。

与李飞飞团队更注重认知层的世界建模有所不同，V-JEPA 2更进一步强调实际落地的能力。

在第二阶段里，Meta研究团队开始加入长达62小时的机器人数据，也就是实际动作的执行指令，训练出可用于规划和控制的模型。

那效果如何呢？V-JEPA 2在开源DROID数据集上训练后，直接在实验室机器人上部署，成功执行如抓取、搬运等基础任务，展现了在新环境和新物体上进行零样本机器人规划的能力。

具体来看，对于短期任务，比如抓取、搬运等动作，V-JEPA 2通过编码当前状态和目标状态的图像，预测多个候选动作，然后选择最优路径执行。

对于长期任务，在新环境中完成抓取、搬运到指定位置这种多步操作时，成功率会达到65%–80%。系统会设置一组视觉子目标，模型按顺序引导机器人完成任务，整个过程有点像人类在模仿示范时一步步学习。

用更通俗的话说，世界模型就相当于现实世界中的「操作系统」，从屏幕走到现实世界，而V-JEPA 2也是一块关键的拼图。

看起来很聪明的AI，其实连「物理常识」都不懂？

此外，Meta还发布了三项新基准测试：IntPhys 2、Minimal Video Pairs、CausalVQA，用于评估模型对视频中物理世界的理解与推理能力。

IntPhys 2比较好理解，有点像是我们日常生活中的找茬游戏，只不过，它考察的是模型对物理常识的理解。

Meta团队用游戏引擎生成成对视频，前半段完全一致，后半段其中一个突然出现违反物理规律的事件，比如物体悬空，穿墙、瞬移，而模型则需要判断哪段视频不合理。

这对人类来说，可能手拿把掐，但对于现阶段的AI，面对基础物理尝试仍是一脸懵，也很难准确判断。

看起来懂得一切的模型，究竟是靠真正理解了物理因果，还是仅仅在靠图像线索和关键词蒙对了？这就是第二套基准测试Minimal Video Pairs（MVPBench）想要搞清楚的目标。

这套测试的核心思路非常「反套路」。传统的视频问答模型，很多时候并不是看懂了视频发生了什么，而是利用训练数据中的模板、风格和关键词去猜答案。

举个例子，如果看到A推了B，它就默认B会动；看到一个球飘起来了，它可能会觉得这是特效。基于此，MVPBench专门设计了「一对双胞胎视频」，视觉上几乎一模一样，只在某个关键细节上做出最小化的改动，比如某个动作发生的先后顺序、物体的微小位置偏移、运动轨迹的结果变化。

模型必须分别回答这两个视频的同一个问题，且必须两个都答对才算得分。这就意味着，它不能靠模糊的图像匹配或者文本关联来「糊弄过去」，它必须真的搞懂：谁先动了？是谁推了谁？动作发生之后的后果，合不合常理？

这套机制从根源上卡死了模型的「投机」路径。

CausalVQA则是一个专门用来评估AI模型是否能理解视频中事件之间的因果关系的测试集。评估模型对物理因果关系的理解，包括反事实、预判和规划三个步骤。

反事实比较好理解，比如问模型：「如果这个杯子没有掉下来，会发生什么？」模型必须理解原始事件，然后基于没掉这个假设，推理出新的可能结局。

预判则需要模型必须根据视频当前的状态，判断即将发生的动作或结果，比如问现在水壶正在烧水，接下来会发生什么？这类问题要求模型能感知「因」并预测「果」。

而在目标规划上，模型需要倒推实现路径，规划出达到目标所需的具体步骤，某种程度上，这也是通向AI Agent的关键能力之一。

在发布基于视频训练的世界模型V-JEPA 2后，Meta还将打造具备更强感知与规划能力的高级机器智能系统。

据Meta团队透露，当前V-JEPA 2只在单一时间尺度上学习和预测，未来将开发多时间尺度的分层JEPA模型，以支持诸如「洗碗」或「烘焙」这样需分步骤执行的复杂任务。

另外，Meta团队还将发展多模态JEPA模型，结合视觉、听觉和触觉等多种感知进行预测。

要想真正让AI从大脑走向身体，光靠大模型堆词汇不够，得先学会物理世界里的「因果律」。方向明确的V-JEPA 2虽然离真正的通用行动智能还有距离，但在不断迭代和面对更多不可控变量的过程中一步步靠近答案。

附官网地址：https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

欢迎加入APPSO AI社群，一起畅聊AI产品，获取#AI有用功，解锁更多AI新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

上一篇：泡泡玛特劲敌，要IPO了泡泡玛特ipo招股书泡泡玛特ip成功的原因分析

下一篇：A股三大股指涨跌互现：沪指涨0.01%报3402.66点，IP经济概念股活跃三大股指全线大涨沪指重返3400点 a股三大指数震荡沪指涨0.1%

小扎砸9位数挖AI 大神、杨立昆发布世界模型，被群嘲的开源旧王要反击了

相关内容

热门资讯