百度伐谋Agent 2.0再登MLE-Bench榜首，智能体工程化能力迎考_财经热点

开心田螺

2026-04-15 15:13:25

百度智能云的企业级算法自主优化智能体“伐谋Agent 2.0”近日再次登顶机器学习工程权威基准测试MLE-Bench，并刷新了SOTA成绩。这是该产品继去年10月首次登顶后，第二次拿下这一榜单的第一名。

MLE-Bench由OpenAI主导设立，包含75个源自Kaggle真实竞赛的工程任务，用于评估AI智能体在模型训练、数据处理、实验管理等全流程中的独立作业能力。

它考核的不是大模型的对话或推理水平，而是模拟人类机器学习工程师解决实际问题的综合素养。每道题目需运行三次取平均分，单次完整提交的算力成本为数万美元。

伐谋2.0在“高难度”任务上的表现较为突出，在统一运行标准下，其综合胜率领先于搭载Claude-Opus-4.6等主流大模型的同类智能体。

在15道最难题目中，伐谋拿下9项第一。这类高难度任务往往对应现实中数字化基础薄弱、数据质量参差的场景，如历史遗留的脏数据、残缺的业务记录、跨系统异构对接等，具有较高的工程参考价值。

产品层面，伐谋2.0在演化策略、长程记忆机制和底层基础设施上做了系统优化。增强的演化策略支持智能体在多个路径上并行探索并适时回溯调整；长程记忆机制帮助其在长链条任务中保持逻辑一致性；全栈AI云基础设施的优化则提升了算法迭代效率。

上线以来，伐谋已服务数千家企业，覆盖零售、金融、制造、能源、交通等领域。例如在汽车制造中，与阿尔特太乙合作的风阻验证时间从10小时压缩到数分钟，整车研发周期平均缩短25%。

MLE-Bench的竞争格局并不平静。今年2月，创业公司Disarray提交了一个高分成绩，随后UCSD团队的AIBuildAI也曾短暂占据榜首。百度伐谋2.0在这一轮动态排名中最终登顶，反映出该领域技术迭代的快速与激烈。

其他参与测评的智能体还包括搭载OpenAI o1、Claude等模型的方案，各家在数据处理效率、长任务稳定性等维度上各有长短。

伐谋2.0的正式版本将在今年5月的Create 2026百度AI开发者大会上发布。同时百度还开源了Famou for Science项目，基于多智能体协同模式构建虚拟科研团队，支持长线程科研任务的自动化推进。

当智能体在工程化基准测试中屡次刷新纪录，一个开放的问题也随之浮现，从榜单高分到大规模产业落地，中间还需要跨越哪些真实世界的门槛？对于企业而言，稳定的成本收益比和可解释的工程回报，或许才是最终的评判标准。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］