扎克伯格豪掷九位数重金挖掘 AI 大神,这一举措引发了广泛关注。与此同时,杨立昆发布了世界模型,曾被视为开源领域的“旧王”。然而,他却遭遇到了群嘲。如今,这位“旧王”似乎要展开反击。他凭借着深厚的技术积累和对开源理念的坚守,或许会拿出令人瞩目的成果来证明自己的价值。这一场开源领域的风云对决,究竟谁能笑到最后,令人拭目以待。无论是扎克伯格的巨额投入,还是杨立昆的反击之举,都将对 AI 领域的发展产生深远影响。
本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《小扎砸 9 位数挖 AI 大神、杨立昆发布世界模型,被群嘲的开源旧王要反击了》
Llama 4的折戟沉沙没有让Meta知难而退,反而坚定了All In AI的决心。
最近,创始人扎克伯格亲自操刀组建「超级智能」团队,重金投资Scale AI、以及砸9位数挖角Google、OpenAI的顶级科学家,也因此抢占了这几天的国际头版头条。
就在今天凌晨,Meta也开源了最新的重量级模型——V-JEPA 2。
不同于市面上的写作或聊天类AI,V-JEPA 2的目标是让AI能够看懂世界、具备物理推理能力,并在完全陌生的环境中自主完成一系列实际操作任务。比如识别一个没见过的物体,走进厨房,准确地把它放到目标位置上,全程无需手把手训练。
图灵奖得主、Meta首席科学家Yann Lecun也亲自出镜,为V-JEPA 2背书,强调让机器理解物理规则的重要性,认为世界模型能够拥有像人类一样理解世界的常识,不靠海量试错,也能在真实物理世界中行动自如。
V-JEPA 2:现实世界的操作系统,正在加载中
过去两年,关于AI未来的发展路径,业界说法众多,有主张AGI、有指向ASI,也有Yann Lecun所提出的AMI。
所谓AMI强调AI不应仅依赖语言处理能力,需要具备对现实世界的抽象建模能力,通过观察多模态数据(如视频、音频)形成内部世界模型,从而理解物理规律。
也就是说,要实现AMI就不能只靠「嘴」,还得有观察世界、理解变化、做出决策的能力,而V-JEPA 2正是Meta研究团队在这个方向上押下的筹码。
它的基础,是Meta在2022年提出的JEPA架构,也就是联合嵌入预测架构,旨在通过预测抽象表示而非生成像素或文本,提升模型对物理世界的理解能力。早期的研究表明,JEPA在图像、3D点云(3D Point Cloud)等模态上表现不俗。
据介绍,V-JEPA 2拥有12亿参数,而它最核心的特点还是围绕「预测」,不只是被动识别视频画面中的物体和动作,更能基于画面推测接下来会发生什么。
举例而言,当一个球被抛到空中,它会因为重力的作用落下,而不会飘在半空、突然掉头,或者变成一个苹果。这种物理直觉,显然不是靠堆数据砸出来的,而是更人类早在学会说话之前就凭借观察建立起的「世界常识」。
一贯抨击LLM路线的Yann Lecun曾锐评当前的LLM不如猫。在他看来,LLM通过预测下一次token生成内容,擅长处理语言符号,但终究无法跨越到对物理世界的真实理解。
可以说,现实世界的物理直觉是人类日常行为的底层支撑逻辑,比如穿过一条人流密集的街道,我们知道该往哪里躲避行人;做饭时,我们知道锅什么时候会烧干。这种内在世界模型就像一个模拟器,帮助我们预测假设行为的结果,并做出最佳决策。
Meta试图用AI构建出一种「模拟器」,也就是真正行动前能先在脑中推演一遍结果再行动,V-JEPA 2是实现这一目标的关键一步,可简单划分为三个步骤:
理解:能从观察中识别物体、动作、运动等信息;
预测:能够预判世界如何演变,或在某个动作发生后世界如何变化;
规划:基于预测能力,制定实现特定目标的行动序列。
基于看懂、想明白、再动手这一整套的闭环,V-JEPA 2的训练流程分为两阶段:
第一阶段是无动作预训练。
Meta研究团队使用超过100万小时的视频和100万张图像,用自监督形式训练编码器(Encoder:输入原始视频,输出代表世界状态语义信息的嵌入;)和预测器(Predictor:基于视频嵌入和额外上下文,生成未来状态的预测嵌入)。
不需要人工打标签,模型就能学会图像间的时序关系,物理的交互逻辑和物理约束。在这个阶段,V-JEPA 2就已经展现出强大的感知和理解能力:
在Something-Something v2动作识别任务中,V-JEPA 2通过轻量注意力机制的解读器达到了卓越表现;
在Epic-Kitchens-100的1秒未来动作预测任务中刷新纪录;
联合语言模型后,在视频问答基准如Perception Test和TempCompass上也表现领先。
与李飞飞团队更注重认知层的世界建模有所不同,V-JEPA 2更进一步强调实际落地的能力。
在第二阶段里,Meta研究团队开始加入长达62小时的机器人数据,也就是实际动作的执行指令,训练出可用于规划和控制的模型。
那效果如何呢?V-JEPA 2在开源DROID数据集上训练后,直接在实验室机器人上部署,成功执行如抓取、搬运等基础任务,展现了在新环境和新物体上进行零样本机器人规划的能力。
具体来看,对于短期任务,比如抓取、搬运等动作,V-JEPA 2通过编码当前状态和目标状态的图像,预测多个候选动作,然后选择最优路径执行。
对于长期任务,在新环境中完成抓取、搬运到指定位置这种多步操作时,成功率会达到65%–80%。系统会设置一组视觉子目标,模型按顺序引导机器人完成任务,整个过程有点像人类在模仿示范时一步步学习。
用更通俗的话说,世界模型就相当于现实世界中的「操作系统」,从屏幕走到现实世界,而V-JEPA 2也是一块关键的拼图。
看起来很聪明的AI,其实连「物理常识」都不懂?
此外,Meta还发布了三项新基准测试:IntPhys 2、Minimal Video Pairs、CausalVQA,用于评估模型对视频中物理世界的理解与推理能力。
IntPhys 2比较好理解,有点像是我们日常生活中的找茬游戏,只不过,它考察的是模型对物理常识的理解。
Meta团队用游戏引擎生成成对视频,前半段完全一致,后半段其中一个突然出现违反物理规律的事件,比如物体悬空,穿墙、瞬移,而模型则需要判断哪段视频不合理。
这对人类来说,可能手拿把掐,但对于现阶段的AI,面对基础物理尝试仍是一脸懵,也很难准确判断。
看起来懂得一切的模型,究竟是靠真正理解了物理因果,还是仅仅在靠图像线索和关键词蒙对了?这就是第二套基准测试Minimal Video Pairs(MVPBench)想要搞清楚的目标。
这套测试的核心思路非常「反套路」。传统的视频问答模型,很多时候并不是看懂了视频发生了什么,而是利用训练数据中的模板、风格和关键词去猜答案。
举个例子,如果看到A推了B,它就默认B会动;看到一个球飘起来了,它可能会觉得这是特效。基于此,MVPBench专门设计了「一对双胞胎视频」,视觉上几乎一模一样,只在某个关键细节上做出最小化的改动,比如某个动作发生的先后顺序、物体的微小位置偏移、运动轨迹的结果变化。
模型必须分别回答这两个视频的同一个问题,且必须两个都答对才算得分。这就意味着,它不能靠模糊的图像匹配或者文本关联来「糊弄过去」,它必须真的搞懂:谁先动了?是谁推了谁?动作发生之后的后果,合不合常理?
这套机制从根源上卡死了模型的「投机」路径。
CausalVQA则是一个专门用来评估AI模型是否能理解视频中事件之间的因果关系的测试集。评估模型对物理因果关系的理解,包括反事实、预判和规划三个步骤。
反事实比较好理解,比如问模型:「如果这个杯子没有掉下来,会发生什么?」模型必须理解原始事件,然后基于没掉这个假设,推理出新的可能结局。
预判则需要模型必须根据视频当前的状态,判断即将发生的动作或结果,比如问现在水壶正在烧水,接下来会发生什么?这类问题要求模型能感知「因」并预测「果」。
而在目标规划上,模型需要倒推实现路径,规划出达到目标所需的具体步骤,某种程度上,这也是通向AI Agent的关键能力之一。
在发布基于视频训练的世界模型V-JEPA 2后,Meta还将打造具备更强感知与规划能力的高级机器智能系统。
据Meta团队透露,当前V-JEPA 2只在单一时间尺度上学习和预测,未来将开发多时间尺度的分层JEPA模型,以支持诸如「洗碗」或「烘焙」这样需分步骤执行的复杂任务。
另外,Meta团队还将发展多模态JEPA模型,结合视觉、听觉和触觉等多种感知进行预测。
要想真正让AI从大脑走向身体,光靠大模型堆词汇不够,得先学会物理世界里的「因果律」。方向明确的V-JEPA 2虽然离真正的通用行动智能还有距离,但在不断迭代和面对更多不可控变量的过程中一步步靠近答案。
附官网地址:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知
我们正在招募伙伴
简历投递邮箱hr@ifanr.com
✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
上一篇:泡泡玛特劲敌,要IPO了 泡泡玛特ipo招股书 泡泡玛特ip成功的原因分析
下一篇:A股三大股指涨跌互现:沪指涨0.01%报3402.66点,IP经济概念股活跃 三大股指全线大涨沪指重返3400点 a股三大指数震荡沪指涨0.1%