在人工智能的快速发展中,大语言模型(LLMs)在语言生成和基础推理任务上展现出强大的能力。然而,面对复杂的数学解题,尤其是在计算与定理证明方面,它们仍显得力不从心。这一现象的背后,主要是因为现有模型普遍依赖于单一的推理范式,如自然语言、代码或符号推理,缺乏人类在解题时所具备的灵活推理能力。
为了解决这一问题,微软亚洲研究院与清华大学联合提出了“推理链”(Chain-of-Reasoning, CoR)框架。这一创新性框架引入了自然语言、代码与符号三种推理范式的协同思考,极大地提升了模型的通用数学能力。相关研究论文已被ACL2025收录,标志着这一领域的重大进展。
数学解题的挑战
数学问题一般可分为计算和定理证明两大类。尽管大语言模型在对话和写作等任务中表现出色,但在解决数学问题时,它们常常无法同时应对这两种类型的任务。现有的研究通常针对这两类任务分别进行训练,借助特定的知识表示(推理范式)来推导答案。常见的推理范式包括:
当前的主流方法主要分为两类:第一类是通过链式或树搜索在单一范式内进行推理;第二类则是将其他范式作为工具集成到单一范式的推理中,或利用来自不同任务的单一范式推理数据进行混合训练。这两类方法的局限在于,它们忽略了不同推理范式之间的协同与互补性,导致模型在处理不同类型的数学任务时缺乏通用性和灵活性。
CoR框架的创新
CoR框架通过将自然语言、代码和符号三种推理范式融入同一条推理轨迹中,允许模型根据题目的需求灵活切换范式。这种方式使得模型能够在先前生成的内容基础上进行继续推理,从而实现零样本(zero-shot)推理能力。这一框架的灵活性不仅提高了模型对不同任务的适应性,也为数学解题带来了新的视角。
在CoR框架下,推理文本被视为具有层次结构的,由推理步骤、推理路径和推理范式三部分组成。推理步骤是基本单位,推理路径由多个推理步骤组成,形成完整的解题思路,而推理范式则代表利用单一知识媒体的推理路径。
在五个数学推理数据集上的测试结果显示,CoR框架显著提升了模型的解题能力。例如,在定理证明任务中,CoR-Math-7B的表现比GPT-4高出41.0%;在计算任务中,超越GPT-4的成绩也达到了24.2%。这种突破性的成果证明了多范式推理的有效性。
多范式训练的过程
CoR能够实现跨范式推理的关键在于其精心设计的数据构建与训练策略。研究团队构建了一个包含16.7万条推理路径的多范式数学(MPM)训练数据集,并提出了渐进范式训练(PPT)方法,使模型能够逐步掌握多种推理范式。
首先,研究者从Numina、Lean-Workbook等数据集中收集了30万条不同范式的推理路径,涵盖自然语言、代码(主要是Python)和符号语言(以lean4为主)。这些数据不仅任务类型丰富,还蕴含了多样化的推理模式。
为支持CoR的训练,研究者们将传统的单范式训练数据扩展为包含多范式信息的结构化样本,表示为
经过这一系列的步骤,最终构建的MPM数据集包含82,770个问题和167,412个高质量的多范式推理解决方案,形成了CoR框架训练的坚实基础。
评估与展望
研究团队在多个大语言模型上评估了CoR框架的表现,结果显示,在zero-shot设置下,CoR-Math-7B在所有数据集上均取得了最佳性能,展现出强大的泛化推理能力。在定理证明子任务中,CoR-Math-7B在MiniF2F数据集上取得66.0%的准确率,兼顾了准确率与计算效率。
此外,CoR在算术计算任务中也展现了优异的性能,显示出在多种数学任务上的广泛适应性与高效性。总的来说,CoR框架为构建更灵活、更强大、更通用的大模型推理系统提供了清晰的路径。随着多模态和Agent等领域的发展,如何将多范式推理推广到科学发现、工程设计和自动编程等更广泛的应用场景,值得期待。