百度伐谋Agent 2.0再登MLE-Bench榜首,智能体工程化能力迎考
开心田螺
2026-04-15 15:13:25

百度智能云的企业级算法自主优化智能体“伐谋Agent 2.0”近日再次登顶机器学习工程权威基准测试MLE-Bench,并刷新了SOTA成绩。这是该产品继去年10月首次登顶后,第二次拿下这一榜单的第一名。

MLE-Bench由OpenAI主导设立,包含75个源自Kaggle真实竞赛的工程任务,用于评估AI智能体在模型训练、数据处理、实验管理等全流程中的独立作业能力。

它考核的不是大模型的对话或推理水平,而是模拟人类机器学习工程师解决实际问题的综合素养。每道题目需运行三次取平均分,单次完整提交的算力成本为数万美元。

伐谋2.0在“高难度”任务上的表现较为突出,在统一运行标准下,其综合胜率领先于搭载Claude-Opus-4.6等主流大模型的同类智能体。

在15道最难题目中,伐谋拿下9项第一。这类高难度任务往往对应现实中数字化基础薄弱、数据质量参差的场景,如历史遗留的脏数据、残缺的业务记录、跨系统异构对接等,具有较高的工程参考价值。

产品层面,伐谋2.0在演化策略、长程记忆机制和底层基础设施上做了系统优化。增强的演化策略支持智能体在多个路径上并行探索并适时回溯调整;长程记忆机制帮助其在长链条任务中保持逻辑一致性;全栈AI云基础设施的优化则提升了算法迭代效率。

上线以来,伐谋已服务数千家企业,覆盖零售、金融、制造、能源、交通等领域。例如在汽车制造中,与阿尔特太乙合作的风阻验证时间从10小时压缩到数分钟,整车研发周期平均缩短25%。

MLE-Bench的竞争格局并不平静。今年2月,创业公司Disarray提交了一个高分成绩,随后UCSD团队的AIBuildAI也曾短暂占据榜首。百度伐谋2.0在这一轮动态排名中最终登顶,反映出该领域技术迭代的快速与激烈。

其他参与测评的智能体还包括搭载OpenAI o1、Claude等模型的方案,各家在数据处理效率、长任务稳定性等维度上各有长短。

伐谋2.0的正式版本将在今年5月的Create 2026百度AI开发者大会上发布。同时百度还开源了Famou for Science项目,基于多智能体协同模式构建虚拟科研团队,支持长线程科研任务的自动化推进。

当智能体在工程化基准测试中屡次刷新纪录,一个开放的问题也随之浮现,从榜单高分到大规模产业落地,中间还需要跨越哪些真实世界的门槛?对于企业而言,稳定的成本收益比和可解释的工程回报,或许才是最终的评判标准。

[本文作者i黑马,i黑马原创。如需转载请联系微信公众号(ID:iheima)授权,未经授权,转载必究。]

相关内容

热门资讯

掌上工美app投资骗局,白银铂...   “投入10万,3天就能赚2万?”当这样的诱惑弹出在手机屏幕上,不少人会心头一动。而正是这份对“快...
银山金牛app虚假平台欺骗投资...   银山金牛app虚假平台欺骗投资者,暗箱操作导致亏损惨重!  很多投资者根本就不懂,盲目的相信平台...
八方淘金APP现货订购变“非法...   警惕!八方淘金APP被指非法期货陷阱,投资者巨额亏损如何维权?  近期,不少投资者在网络平台上反...
中国白银APP违规经营现货订购...   中国白银软件虚假广告诱导广大投资者去开户充值,投资者根本没有相关交易经验,而这个平台打着现货订购...
新华社权威快报|施行近17年的...   企业国有资产法修订草案4月27日提请十四届全国人大常委会第二十二次会议首次审议。企业国有资产法修...