腾讯开源OpenSearch-VL,突破多模态搜索AI智能体训练瓶颈
开心田螺
2026-05-08 02:29:56

IT之家 5 月 7 日消息,腾讯混元(Tencent Hunyuan)携手加州大学洛杉矶分校(UCLA)、香港中文大学等学府,联合发布 OpenSearch-VL 开源多模态训练方案,通过强化学习(RL)技术,打造具备前沿能力的深度搜索智能体。

多模态搜索智能体指能够处理图像、文本等多种模态输入,并主动调用外部工具(如搜索引擎、图像处理工具)进行多步骤推理、证据验证与知识检索的智能体,旨在解决知识密集型的复杂视觉问答。

该报告昨日(5 月 6 日)在 arXiv 平台发表,介绍了 OpenSearch-VL 方案,用于训练前沿多模态深度搜索智能体。研究构建了高质量数据管道,通过维基百科路径采样与模糊实体重写减少检索捷径,产出 SearchVL-SFT-36k 等数据集。

研究团队指出,目前阻碍前沿多模态搜索智能体进化的最大瓶颈,在于高质量的训练数据。现有顶尖系统多由商业公司主导,其数据来源、过滤标准与工具使用轨迹均属私有,阻碍了先进能力的复现与系统性研究。

研究提出 OpenSearch-VL,提供从数据、工具到训练算法的完整开源方案。

在构建数据管道方面,OpenSearch-VL 提出利用维基百科的超链接图谱,执行多跳实体路径采样,将中间实体重写为模糊描述,并将锚点实体锚定至源图像,从而抑制单步检索捷径,鼓励智能体学习多跳搜索与推理行为。

管道产出 SearchVL-SFT-36k 数据集用于监督微调,平均每轨迹包含 6.3 次工具调用。同时,随机选取 10% 数据应用模糊、下采样等降质处理,配对增强工具,诱导“边思考边处理图像”的行为。

工具环境超越仅检索的智能体,统一文本搜索、图像搜索、OCR、裁剪、锐化、超分辨率与透视校正等功能。这允许智能体在查询外部知识前,先处理模糊、低分辨率或倾斜的视觉输入,实现主动感知与知识获取的结合。

实验显示,OpenSearch-VL-30B-A3B 模型将基线平均得分从 47.8 提升至 61.6,在 VDR、MMSearch 等基准上取得显著增益。消融实验验证了各组件贡献:移除源锚点锚定、模糊重写或分阶段过滤导致平均得分下降 8.2 至 11.5 点。

IT之家附上参考地址

相关内容

热门资讯

九部门:鼓励金融机构与重点商户... 2月2日消息,商务部等9部门印发《2026“乐购新春”春节特别活动方案》。其中提出,加大金融支持。鼓...
标普500指数期货跌幅扩大至1... 2月2日消息,标普500指数期货跌幅扩大至1.1%,纳斯达克指数期货下跌1.5%。(广角观察)
港股午评:恒生指数跌2.4%,... 2月2日消息,港股午间收盘,恒生指数跌2.4%,恒生科技指数跌3.68%。板块方面,金属与采矿、汽车...
广东:支持广期所适时研究推出碳... 2月2日消息,广东省发展改革委2月2日印发《广东省2026年优化市场化一流营商环境工作方案》。《工作...
吉利汽车:1月汽车总销量为27... 2月1日消息,吉利汽车发布公告,集团于2026年1月的汽车总销量为27.02万部,较去年同期增长约1...