CoR框架:赋予大模型多范式思维,提升数学解题能力
创始人
2025-07-23 01:50:36

在人工智能的快速发展中,大语言模型(LLMs)在语言生成和基础推理任务上展现出强大的能力。然而,面对复杂的数学解题,尤其是在计算与定理证明方面,它们仍显得力不从心。这一现象的背后,主要是因为现有模型普遍依赖于单一的推理范式,如自然语言、代码或符号推理,缺乏人类在解题时所具备的灵活推理能力。

为了解决这一问题,微软亚洲研究院与清华大学联合提出了“推理链”(Chain-of-Reasoning, CoR)框架。这一创新性框架引入了自然语言、代码与符号三种推理范式的协同思考,极大地提升了模型的通用数学能力。相关研究论文已被ACL2025收录,标志着这一领域的重大进展。

数学解题的挑战

数学问题一般可分为计算和定理证明两大类。尽管大语言模型在对话和写作等任务中表现出色,但在解决数学问题时,它们常常无法同时应对这两种类型的任务。现有的研究通常针对这两类任务分别进行训练,借助特定的知识表示(推理范式)来推导答案。常见的推理范式包括:

  1. 自然语言推理:通过自然语言文本,结合人类常识与语义上下文进行推理,通常提供清晰的逐步解释。
  2. 代码推理:将任务转化为代码,以模拟计算机的操作并执行,从而推导出最终答案,例如生成编译所需的Python代码。
  3. 符号推理:利用逻辑符号和公理系统作为基本工具进行形式化推理。

当前的主流方法主要分为两类:第一类是通过链式或树搜索在单一范式内进行推理;第二类则是将其他范式作为工具集成到单一范式的推理中,或利用来自不同任务的单一范式推理数据进行混合训练。这两类方法的局限在于,它们忽略了不同推理范式之间的协同与互补性,导致模型在处理不同类型的数学任务时缺乏通用性和灵活性。

CoR框架的创新

CoR框架通过将自然语言、代码和符号三种推理范式融入同一条推理轨迹中,允许模型根据题目的需求灵活切换范式。这种方式使得模型能够在先前生成的内容基础上进行继续推理,从而实现零样本(zero-shot)推理能力。这一框架的灵活性不仅提高了模型对不同任务的适应性,也为数学解题带来了新的视角。

在CoR框架下,推理文本被视为具有层次结构的,由推理步骤、推理路径和推理范式三部分组成。推理步骤是基本单位,推理路径由多个推理步骤组成,形成完整的解题思路,而推理范式则代表利用单一知识媒体的推理路径。

在五个数学推理数据集上的测试结果显示,CoR框架显著提升了模型的解题能力。例如,在定理证明任务中,CoR-Math-7B的表现比GPT-4高出41.0%;在计算任务中,超越GPT-4的成绩也达到了24.2%。这种突破性的成果证明了多范式推理的有效性。

多范式训练的过程

CoR能够实现跨范式推理的关键在于其精心设计的数据构建与训练策略。研究团队构建了一个包含16.7万条推理路径的多范式数学(MPM)训练数据集,并提出了渐进范式训练(PPT)方法,使模型能够逐步掌握多种推理范式。

首先,研究者从Numina、Lean-Workbook等数据集中收集了30万条不同范式的推理路径,涵盖自然语言、代码(主要是Python)和符号语言(以lean4为主)。这些数据不仅任务类型丰富,还蕴含了多样化的推理模式。

为支持CoR的训练,研究者们将传统的单范式训练数据扩展为包含多范式信息的结构化样本,表示为。这一过程分为两个阶段:

  1. 重构和扩展推理路径:构建适用于多范式推理的通用模板,以扩展缺失的推理范式,生成了约28.5万个合成样本。
  2. 修订路径:通过与LeanProver的迭代交互,验证符号范式的证明步骤的正确性,并根据反馈信息指导推理路径的过滤和修改。

经过这一系列的步骤,最终构建的MPM数据集包含82,770个问题和167,412个高质量的多范式推理解决方案,形成了CoR框架训练的坚实基础。

评估与展望

研究团队在多个大语言模型上评估了CoR框架的表现,结果显示,在zero-shot设置下,CoR-Math-7B在所有数据集上均取得了最佳性能,展现出强大的泛化推理能力。在定理证明子任务中,CoR-Math-7B在MiniF2F数据集上取得66.0%的准确率,兼顾了准确率与计算效率。

此外,CoR在算术计算任务中也展现了优异的性能,显示出在多种数学任务上的广泛适应性与高效性。总的来说,CoR框架为构建更灵活、更强大、更通用的大模型推理系统提供了清晰的路径。随着多模态和Agent等领域的发展,如何将多范式推理推广到科学发现、工程设计和自动编程等更广泛的应用场景,值得期待。

相关内容

热门资讯

美媒:特朗普促司法部调查奥巴马... 中新网7月23日电 据美国政治新闻网Politico报道,当地时间22日,美国总统特朗普表示,在情报...
微信能自动发消息了?热搜第一! 近期 微信开启了一项新功能灰度测试 部分用户发现聊天界面新增了 语音自动转文字并发送的便捷功能 昨天...
华为Pura80数字版今日开启... 每经AI快讯,据“华为终端”官方微博消息,华为Pura80数字版今日10:08开启预售,7月30日正...
一架“幻影-2000”战机在乌... 据路透社报道,乌克兰军方表示,一架由法国供应给乌克兰的“幻影-2000”战斗机于22日执行任务时因发...
日媒:石破茂将在8月辞职 中新网7月23日电 据日本《每日新闻》报道,日本首相石破茂23日向身边人士表示,其拟在8月辞去日本首...
以防长:不排除再次对伊朗发动袭... 当地时间7月22日,以国防部长卡茨在当天召开的形势评估会议上表示,以色列距离实现军事目标已经非常近,...
他在送外卖的路上,收到了被空军... “孩子,你被录取了” 近日 18岁的安徽阜阳小伙张宇豪 在兼职送外卖的途中 收到了 自己被空军航空大...
山东济南莱芜突发山洪 受灾区域... 7月22日0时至5时,山东省济南市莱芜区遭遇强降雨天气过程,最大点降雨量达364毫米。受其影响,大王...
我国渔民捕鱼意外打捞到某国水下... 新闻荐读 记者从国家安全部了解到,保护好海洋数据安全,维护国家海洋权益、保障海洋事业可持续发展,是维...
特朗普点名“蔗糖可乐” 可口可... 中新网7月23日电(记者 张乃月)当地时间22日,可口可乐公司在财报中透露,将于今年秋季推出一款“用...
中国网约车分会致歉 “中国网约车分会”微信公众号 中国城市公共交通协会网约车分会官方公众号23日发布《致歉声明》: 7...
渔民捕鱼时捞到某国窃密装置 据国家安全部消息,近年来,境外间谍情报机关正将邪恶之手伸向这片纯净的蓝色领域,采取各种手段加强对我国...
美日达成贸易协议!特朗普:日本... 据央视新闻报道,当地时间7月22日,美国总统特朗普通过社交媒体宣布美国与日本达成贸易协议:对日关税税...
特朗普喊话“用蔗糖” 可口可乐... 新华社北京7月23日电 可口可乐公司22日宣布,将于今年秋季在美国市场推出一款以“美国蔗糖”为甜味剂...
巴勒斯坦民众抗议以色列对加沙的... 7月22日,巴勒斯坦民众在约旦河西岸城市纳布卢斯示威,抗议以色列对加沙实施的饥饿政策。 今年3月,以...
赵建军已任江苏省政府党组成员 交汇点新闻客户端消息,7月22日,江苏省政协举行政企协商座谈会。省长许昆林出席并讲话,省政协主席张义...
阳泉市超全食物不耐受检测收费标... 阳泉市食物不耐受检测在哪里做?阳泉市衡医健康食物不耐受检测机构可以做。食物不耐受在日常生活中可能引发...
阳泉市超全食物不耐受检测收费标... 阳泉市食物不耐受检测在哪里做?阳泉市衡医健康食物不耐受检测机构可以做。食物不耐受在日常生活中可能引发...
再催美联储降息 特朗普称鲍威尔... △美国总统特朗普(资料图) 当地时间22日,美国总统特朗普表示,美联储主席鲍威尔即将离任。 特朗普称...
大暑至!山东8大避暑宝地为你“... 7月22日,大暑至,一年中最热的时候来了。连新闻联播都在cue的清凉宝地都有哪些?别急,小编为你整理...
哈尔滨旅游降温?大连圣亚停牌拟... 2025年7月21日晚间,大连圣亚(600593.SH)发布停牌公告,称正在筹划向特定对象发行股票事...
同一个台风为何多次登陆?专家解... 今年第6号台风“韦帕”今天上午在越南太平沿海再次登陆。加上之前两次登陆我国广东,这已经是它第三次登陆...
CoR框架:赋予大模型多范式思... 在人工智能的快速发展中,大语言模型(LLMs)在语言生成和基础推理任务上展现出强大的能力。然而,面对...
热点咨询“边锋斗地主透视辅助软... 注释:需要了解添加薇信 31560518 或者 81583357 【认准官方正版授权】您好,边锋斗...
爆款文案“小程序开心十三张透视... 是真的您搜索查询的爆款文案“小程序开心十三张透视软件是不是真的”实测开挂方法这款游戏辅助器确实存在,...
查看解答“微信小程序中至二人有... 您好:微信小程序中至二人可以开挂,确实是有挂的,很多玩家在雀友游戏中打牌都会发现很多用户的牌特别好,...
揭秘“微信中至上饶开挂辅助软件... 您好:微信中至上饶可以开挂,确实是有挂的,很多玩家在雀友游戏中打牌都会发现很多用户的牌特别好,总是好...
揭秘关于“同城跑得快开挂辅助软... 你好,你所搜查的 同城跑得快 这款游戏是可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很...
玩家科普“拱趴游戏到底有没有挂... 您好:拱趴游戏这款游戏可以开挂,确实是有挂的,需要了解加微【31560518】很多玩家在这款游戏中打...
揭秘关于“九九茶楼胜负规律拿好... 九九茶楼是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微8158...