大推理模型技术全面综述：背景、数据、模型、学习、评估、趋势

发布日期：2025-02-05 11:20 点击次数：166

随着大语言模型的发展，其推理能力备受关注。研究背景是深度学习和大量数据推动了大语言模型出现，但在复杂推理任务上仍有挑战。本文的重要意义在于全面梳理了大语言模型推理的相关技术和进展，为研究人员提供了清晰的研究脉络，有助于推动该领域进一步发展，提升模型推理能力，使其更好地应用于解决现实世界的复杂问题。

我们详细翻译解读最新论文，文末有相关信息。

作者：张长旺，图源：旺知识

本文围绕大语言模型推理展开，先阐述其背景，包括预训练、微调、对齐和提示推理等方面；接着探讨数据构建从人类标注向自动化的转变，以及学习推理从监督到强化微调的过程；还介绍了测试时间缩放技术和通往大型推理模型的路径，包括 OpenAI o1 系列及开源尝试；此外提及其他测试时间增强技术和评估基准；最后讨论了近期进展带来的启示、慢思考推理、下游应用及开放问题，全面回顾了大语言模型推理的研究现状与发展方向。

摘要&&解读

语言长期以来被视为人类推理的重要工具。大语言模型（LLMs）的突破引发了利用这些模型解决复杂推理任务的大量研究兴趣。研究人员通过引入“思维”概念——代表推理过程中间步骤的标记序列，超越了简单的自回归标记生成。这种创新范式使大语言模型能够模仿复杂的人类推理过程，如树搜索和反思性思维。最近，一种新兴的学习推理趋势是应用强化学习（RL）来训练大语言模型掌握推理过程。这种方法通过试错搜索算法自动生成高质量的推理轨迹，通过提供大量的训练数据显著扩展了大语言模型的推理能力。此外，最近的研究表明，在测试时推理中鼓励大语言模型使用更多的标记进行“思考”可以进一步显著提高推理准确性。因此，训练时间和测试时间的扩展共同展示了一个新的研究前沿——通往大型推理模型的道路。OpenAI的o1系列的推出标志着这个研究方向的一个重要里程碑。在这篇综述中，我们全面回顾了大语言模型推理的最新进展。我们首先介绍了大语言模型的基础背景，然后探讨了推动大型推理模型发展的关键技术组件，重点关注自动数据构建、学习推理技术和测试时间扩展。我们还分析了构建大型推理模型的流行开源项目，并以开放挑战和未来研究方向作为总结。

研究背景：深度学习的进步和大规模数据集的可用性催生了大语言模型，但在复杂推理任务上表现不足。传统的监督学习方法在训练大语言模型推理时面临数据昂贵和模型遗忘等问题，因此需要新的技术来提升其推理能力，推动了从人类标注向自动化数据构建、从监督到强化学习等一系列技术的发展。研究贡献：提出了基于大语言模型自动化的数据构建方法，包括结果标注和过程标注，降低了成本并提高了数据质量和可扩展性。引入了过程奖励模型（PRM）用于强化学习，改变了传统基于结果的奖励模式，为大语言模型推理提供了更细致的反馈，有效提升了推理能力。开发了多种测试时间增强技术，如言语强化搜索、基于记忆的强化和智能体系统搜索等，在不修改模型结构的情况下进一步提高推理性能。实现设计：数据构建方面，通过大语言模型自身的能力进行数据标注，利用外部验证和搜索算法实现自动化过程标注，如蒙特卡洛树搜索等方法。学习推理中，采用强化学习框架，结合过程奖励模型，通过迭代训练优化模型参数，提升推理能力，同时利用直接偏好优化等方法简化训练过程。测试时间缩放通过设计不同的搜索算法，如多数投票、树搜索、束搜索和前瞻搜索等，利用过程奖励模型引导搜索，在推理过程中动态优化结果。实验结果：OpenAI o1 系列在数学、编程和科学问题解决等复杂任务中取得优异成绩，展示了新的缩放定律，证明了在训练和推理阶段增加计算资源可有效提升推理能力。各种开源项目通过不同的技术实现，在一定程度上提升了大语言模型的推理能力，验证了相关技术的有效性，如 OpenR 利用自动化数据构建和过程奖励模型在测试时间计算和训练后阶段取得良好效果。

1. 引言

“如果语言严重缺失，思维也会严重缺失”——诺姆·乔姆斯基

在深度学习的进步和网络规模数据集的可用性的推动下，大语言模型（LLMs）已成为迈向通用人工智能（AGI）道路上的一种变革性范式。这些大规模人工智能模型通常采用Transformer架构，并在大规模文本语料库上通过下一个标记预测任务进行预训练[191]。神经缩放定律表明，随着模型规模和训练数据的增加，它们的性能会显著提高[59]。更重要的是，大语言模型还解锁了在较小模型中不存在的显著涌现能力[159]，如上下文学习[33]、角色扮演[124]和类比推理[157]。这些能力使大语言模型能够超越自然语言处理问题，促进更广泛的任务，如代码生成[41]、机器人控制[3]和自主智能体[28]。在这些能力中，类人推理引起了学术界和工业界的极大关注，因为它展示了大语言模型通过抽象和逻辑推理推广到复杂现实世界问题的巨大潜力。在这一领域的一个显著突破是“思维链”提示技术[160]，它可以在测试时无需任何额外训练就引出类似人类的逐步推理过程。这种直观的提示技术已被证明能有效大幅提高预训练大语言模型的推理准确性，这也导致了更先进的提示技术的发展，如“思维树”[172]。这些方法引入了“思维”的概念，即代表类人推理过程中间步骤的标记序列。通过纳入这些中间步骤，大语言模型的推理超越了简单的自回归标记生成，实现了更复杂的认知架构，如树搜索[172]和反思性推理[180]。

最近，学习推理出现了一个重要的研究趋势[103]，旨在训练大语言模型掌握类人推理过程。这个研究方向的一个关键挑战是缺乏训练数据。人类标注通常非常昂贵，特别是对于在监督大语言模型推理方面已被证明有效的逐步推理轨迹[75]。为了解决这个问题，最近的研究从人类标注转向了大语言模型驱动的搜索算法。这些方法利用推理问题的外部验证，通过试错搜索自动生成准确的推理轨迹[85]。更重要的是，研究人员提议在这些推理轨迹上训练过程奖励模型（PRMs）[183]。过程奖励模型可以提供密集的、逐步的奖励，促进大语言模型推理的强化学习。这些方法结合起来减少了对人类标注数据的依赖，并创建了一个增强大语言模型推理的“强化循环”，有效地整合了理查德·萨顿预测的可以无限扩展的“搜索”和“学习”[139]。因此，这种新颖的范式使大语言模型的推理能力能够随着训练时间的计算增加而扩展，为更先进的推理模型铺平了道路。

此外，最近的研究表明，增加测试时间的计算也可以提高大语言模型的推理准确性。具体来说，过程奖励模型可用于指导大语言模型评估和搜索中间“思维”[134]，这鼓励大语言模型在测试时计算中生成深思熟虑的推理步骤，并提高推理准确性。这种方法产生了测试时间缩放定律，该定律预测在测试时花费更多的标记进行深思熟虑的推理可以提高准确性[103]。因此，强化学习驱动的训练时间缩放和基于搜索的测试时间缩放相结合，展示了一个有前途的研究方向，可以充分释放大语言模型的推理能力，即通往大型推理模型的道路。这个研究方向的一个关键里程碑是OpenAI的o1系列[194]，它展示了这种方法的有效性，并呼应了OpenAI在迈向通用人工智能的五步路线图中将大语言模型从对话式人工智能（第一级）转变为更强大的推理人工智能（第二级）的愿景[36]。几个开源项目，如OpenR[145]、LLaMABerry[185]和Journey Learning[110]，致力于重现OpenAI o1的强大推理能力，为开发大型推理模型提供了有价值的见解。

在这篇综述中，我们全面回顾了向大型推理模型发展的最新研究工作。第2节简要介绍了大语言模型推理的背景。接下来的三节深入探讨了推动大型推理模型发展的关键技术组件。具体来说，第3节专注于训练数据构建，强调从人类标注向大语言模型自动化的转变。第4节回顾了对于通过增加训练时间计算来扩展大语言模型推理能力至关重要的强化学习方法，而第5节讨论了测试时间缩放，特别强调了过程奖励模型引导的搜索。在第6节中，我们分析了OpenAI o1系列和其他开源项目的发展，探索了通往大型推理模型的道路。第7节总结了其他测试时间增强技术，第8节回顾了推理基准。最后，我们通过讨论开放问题和未来研究方向来总结这篇综述。

2. 背景

2.1 预训练

作为训练大语言模型的基础阶段，有效的预训练对于发展推理能力至关重要。在讨论大语言模型推理的预训练之前，我们首先概述一般大语言模型预训练的基本过程。通过预训练，大语言模型不仅获得核心语言知识，还获得丰富的世界知识，为高级能力的出现和有效的价值对齐奠定了坚实的基础[191]。通常，大语言模型预训练依赖于高质量的文本语料库[35, 168]，包括大量的网络内容、书籍、代码和其他类型的数据。利用这些丰富的文本语料库，大语言模型基于Transformer架构，并通过下一个标记预测任务进行训练。预训练后，大语言模型通常表现出出色的上下文学习能力[14]，使它们能够生成连贯的文本，并通过利用其庞大的知识库对广泛的问题提供准确的答案。值得注意的是，预训练阶段在培养大语言模型的推理能力方面起着关键作用。例如，研究[160]表明，富含代码和数学内容的数据集是发展强大推理技能的关键基础。基于这一观察，新开发的大语言模型[1]开始引入精心设计的合成数据以增强大语言模型的推理能力。在预训练期间，一个关键挑战是平衡代码和数学数据与一般文本语料库的比例，以在保持强大的通用语言能力的同时解锁大语言模型的推理潜力。

2.2 微调

虽然预训练使大语言模型能够通过上下文学习展示推理能力，但微调技术被广泛用于实现大语言模型的零样本和改进的推理能力。在这里，我们首先概述基本的微调过程，然后探讨其增强推理能力的潜力。如[104]所述，在预训练阶段之后，大语言模型进入有监督微调阶段（SFT），也称为指令调整阶段。这个阶段的主要目标是优化模型的输出风格，确保其响应符合人类需求和现实应用。这是通过使用反映广泛日常人类交互的各种指令数据集进行训练来实现的，这些数据集通常是通过广泛和精心策划的手动标注和优化创建的[195]。随着ChatGPT的出现，出现了生成各种指令数据集的新方法。这些方法包括直接从强大的大语言模型中提取数据的技术[153, 167]以及从现有语料库构建大规模数据集的自动化方法[158, 32]。使用这些精心制作的指令调整数据集，微调过程继续使用与预训练类似的下一个标记预测目标。然而，与预训练不同的是，微调专门计算答案的损失，而通常忽略问题的损失。此外，纳入包含思维链（CoT）[160]推理和数学问题解决示例的数据集已被证明可以显著增强大语言模型的推理能力，这使其成为一个活跃的研究领域。按照一般做法，目前大多数方法利用从先进的大型推理模型中提取的数据，然后进行微调以增强大语言模型的推理能力，从而获得最终的大型推理模型。

2.3 对齐

仅依赖从先进的大型推理模型中直接提取数据限制了新大语言模型的潜力。一种更有前途的方法是使用强化学习进行数据构建和模型训练，这恰好对应于一般大语言模型训练的最终对齐阶段。在大语言模型的一般训练中，对齐阶段通常涉及从人类反馈中进行强化学习（RLHF）[104]等方法，以引导模型生成符合有益、无害和诚实标准的内容。这个阶段的目标是增强大语言模型在现实中的安全性和可控性。与前面的SFT阶段相比，这个阶段通常纳入大量精心策划的、手动标注的排名数据，以准确反映人类偏好[35, 168]。这些数据不仅包括正确的演示，还包括应避免的不良情况。标准的RLHF通常涉及一个SFT模型、一个奖励模型和一个对齐模型，它们使用像近端策略优化（PPO）[121]这样的方法进行迭代优化。由于标准RLHF对数据的高要求和训练成本，像直接偏好优化（DPO）[112]这样的方法已经被提出，以减少对显式奖励模型的依赖。在DPO中，偏好损失被定义为策略的函数，以直接指导模型优化。鉴于推理问题的多步骤性质和复杂性，基于对齐的后训练已成为激发大语言模型推理能力的最后也是最关键的步骤。通过仔细分解推理过程并逐渐将信号反馈给模型，各种基于强化学习和偏好学习的自训练方法[45, 64, 183]取得了显著的成功。

2.4 提示大语言模型进行高级推理

类人推理是在具有足够大模型参数的大语言模型中出现的最重要能力之一[157]。虽然零样本推理在某些任务中可能仍然不可靠，但研究人员已经发现了各种提示技术来增强这些能力。这些技术可以大致分为三种主要方法：逐步推理、多路径探索和基于分解的方法。

以思维链提示[160]为例的逐步推理方法表明，明确展示中间推理步骤可以显著提高问题解决能力。即使是简单的提示，如“让我们逐步思考”，也可以有效地引导推理过程[62]。这种方法通过自一致性[153]得到了进一步改进，自一致性通过生成多个推理路径来得出更可靠的结论，以及自动思维链（Auto-CoT）[189]，它自动生成有效的推理链。

多路径探索方法超越了线性推理，同时考虑多个潜在的解决方案路径。思维树[172]将替代推理路径组织成树结构，能够系统地探索不同的解决方案策略。思维图[11]进一步将其推广到图结构，允许更灵活的推理模式和回溯能力。ReAct[173]通过将推理与行动步骤交织在一起丰富了这种范式，实现了与外部环境更动态的交互。

对于复杂问题，基于分解的方法已被证明特别有效。从最少到最多提示[196]和思维算法[122]系统地将复杂问题分解为可管理的组件，而计划与解决[147]为解决这些子问题提供了战略指导。在处理需要多个步骤或不同层次分析的任务时，这些方法特别有价值。

通过结构化提示策略增强的这些广泛的推理能力已被证明对于需要仔细分析和系统思考的任务特别有效，使大语言模型能够完成各种复杂的社会科学相关任务。这些方法的成功表明，虽然大语言模型具有内在的推理能力，但通过在提示过程中进行仔细的指导和结构化，可以充分释放它们的潜力。

2.5 智能体工作流程

在大语言模型的指令遵循和上下文学习能力的基础上，研究人员开始设计智能体工作流程，对大语言模型的“思维模式”进行编程[137]。这种智能体工作流程允许研究人员在不进行任何额外训练的情况下增强大语言模型的推理能力，但通常需要更多的测试时间计算。上下文学习[33, 25]是一种通过简单提供一些上下文演示来提高大语言模型特定任务性能的能力，使大语言模型能够在不进行计算昂贵的训练的情况下有效地推广到未见过的问题[14]。虽然这种能力的起源在很大程度上仍是一个有争议的话题，但最近的研究表明，上下文学习通过允许大语言模型捕获标签空间、输入文本的分布和所需的答案格式来提高其性能[97]。这些理想的特征使研究人员能够使通用大语言模型适应不同的任务场景，例如通过上下文角色扮演模拟某些人群的视角[22]。最近的研究表明，有效的智能体工作流程可以极大地提高大语言模型模拟人类行为[105, 127]、人类 - 大语言模型交互[89]和协作任务解决[107]的能力。使用智能体工作流程对大语言模型进行编程的能力为使用复杂认知架构提高大语言模型的推理能力奠定了基础。

3. 数据构建：从人类标注到大语言模型自动化

创建大规模、高质量的推理数据集对于增强大语言模型的推理能力至关重要。然而，由于成本高昂，这项任务带来了巨大的挑战。如图1所示，人类标注被广泛认为是高质量的，但极其昂贵且难以扩展。相反，使用大语言模型自动化标注过程提供了一种更具成本效益的替代方案，但面临着有限验证的挑战，特别是对于逐步推理过程。在本节中，我们回顾了这一领域的近期研究工作（总结在表1中），强调了从人类标注向大语言模型自动化的转变。

3.1 人类标注

人类标注在为大语言模型构建数据集方面的作用是不可或缺的。人类标注者的特点是细致、耐心和精确，以及对新场景的适应性和有效处理模糊数据的能力[98]。Zhou等人[195]表明，即使使用极少的人类标注数据，模型也能取得强大的性能，突出了精心策划的标注在模型有效性中的关键作用。人类标注的数据在增强大语言模型的推理能力方面起着关键作用。在从人类反馈中进行强化学习（RLHF）[104]的背景下，来自人类标注者的偏好数据使最初在一般文本语料库上训练的大语言模型能够与复杂的人类价值观和伦理考虑保持一致。这种通用的标注方法有助于针对特定任务微调模型。在此基础上，Lightman等人[75]证明了使用人类标注者评估数学推理过程每一步的推理质量的有效性，显著提高了大语言模型推理的准确性。这凸显了人类标注如何弥合一般训练数据与特定领域挑战（如复杂推理任务）之间的差距。

增强大语言模型的推理能力需要过程监督，其中人类标注者指导推理过程的每一步[75]。然而，这种监督需要大量的人类标注数据，使其资源密集且不可持续。鉴于大语言模型训练通常需要数太字节的数据，数据量对模型性能至关重要，纯粹通过手动标注构建数据集变得越来越不切实际。这凸显了需要替代方法来提高推理能力，而不完全依赖人类标注。一种有前途的方法是人类和大语言模型合作进行标注，其中利用大语言模型来加速过程，同时保持人类生成标注的高质量。具体来说，标注过程可以分为两个阶段：预标注阶段和精炼阶段。在预标注阶段，可以利用大语言模型利用少量手动提供的示例进行初始一轮标注，以实现快速高效的设置[42, 61]。在精炼阶段，人类标注者可以评估大语言模型生成的标注质量，并专注于纠正质量较差的标注子集[61, 152, 96, 42]。为了实现可扩展的标注过程，最近的工作越来越关注如何在确保数据质量的同时最大化自动化，从而在不影响标注准确性的情况下减少人类参与。

3.2 大语言模型自动化结果标注

数据标注是一项具有挑战性且资源密集的任务，特别是在需要对文本数据进行过滤、识别、组织和重建等复杂操作的场景中。这些任务通常繁琐、耗时且需要大量人力，使其成为大规模数据构建工作中的昂贵瓶颈[142, 31]。为了解决这些挑战，利用大语言模型进行数据标注提供了一种具有成本效益和高效的替代方案。由于上下文窗口长度超过100k个标记，大语言模型能够轻松处理冗长的文本和大量结构化数据[2]，以极高的效率处理数据标注的复杂要求。它们强大的指令遵循能力[187]使其能够灵活适应各种复杂的标注场景，同时达到与人类标注者相当的质量水平。通过自动化这些艰巨的任务，大语言模型显著减少了对人力的依赖，简化了标注过程并提高了整体生产力[181]。

大语言模型能够处理各种各样的自动化标注任务，从简单的问答提取[106]到包含额外目标信息[161]。在没有人类演示的情况下，大语言模型依靠其强大的推理和上下文学习能力独立解决更复杂的标注需求。例如，Schick等人[120]展示了如何使用大语言模型构建工具使用数据集。对于可能需要 API 调用的每个候选位置，大语言模型能够理解周围上下文中的逻辑关系，生成相关问题，并识别适当的工具 API 来解决问题。当有人类演示时，大语言模型可以通过模仿这些示例中展示的模式和推理策略进一步提高其性能。对于复杂任务，人类演示提供了高质量的轨迹——思想、观察或行动的序列——指导大语言模型复制人类决策过程。现有研究表明，即使是零样本大语言模型，在基于人类演示的与任务无关的提示引导下，也能有效地执行标注任务[65]。此外，对于涉及高度复杂和微妙轨迹的任务，大语言模型可以结合专门的智能体，如计划智能体、工具智能体和反思智能体，来处理标注过程的不同方面，从而进一步增强其与类人推理和行为对齐的能力[109]。这些多样化的能力自然延伸到推理结果标注任务中，其中大语言模型不仅推断潜在的逻辑结构，还系统地记录中间推理步骤及其相关结论。这使得创建的标注数据集不仅能够捕获最终结果，还能捕获导致这些结果的完整推理过程，为下游应用提供更丰富的见解。

除了基于人类演示的标注之外，大语言模型还可以通过反馈搜索独立增强其标注能力，这是一个通过从动态环境中学习进行迭代改进的过程。失败的数据点可以被视为一种经典的反馈形式，作为模型识别弱点和设计针对性调整的有价值反馈。通过自我纠正错误样本并生成精炼的训练数据，大语言模型参与了一个自我改进的循环，增强了其理解和推理能力[70]。此外，大语言模型可以系统地分析其错误的原因，提取关键见解并将其编码为自学知识，以指导未来的推理任务[72]。这种反馈驱动的方法还可以涉及根据相似性将失败的轨迹与成功的轨迹配对，从而实现对比学习策略来精炼模型的参数。通过这种迭代搜索和改进机制，大语言模型不仅解决了错误，还发展出了更强大的推理能力，使其能够在复杂任务中实现更深入的泛化和适应性[135]。

3.3 大语言模型自动化过程标注

在复杂推理任务中，模型输出的每一步都可能对最终结果产生重大影响，因此必须将中间决策标记为“正确”、“错误”或分配一个中间奖励，即过程标注。然而，手动标记这些步骤成本高昂且耗时。例如，Lightman等人[75]投入了大量的人力来生成一个大规模的过程标注数据集，即 PRM800K，该数据集满足训练有效的过程奖励模型（PRM）的要求，并极大地增强了大语言模型的推理能力。因此，越来越需要自动化方法来进行高效的过程标注，确保可扩展性和成本效益。最初的自动化方法聘请外部更强大的大语言模型来标注较小大语言模型生成的中间过程。此外，基于蒙特卡洛的方法减少了对外部更强大大语言模型的依赖，并且可以使用较弱的大语言模型完成数据标注，从而通过自我强化的方式训练更强的大语言模型。

使用更强大的大语言模型进行标注：作为一种直接的自动化标注方法，Luo等人[84]设计利用一个更强大的外部模型来标注生成模型推理过程的中间结果。该方法不是依赖手动标注，而是采用预训练的高性能模型，如 GPT 系列，来评估每个生成的步骤。通过利用更强大的外部模型的能力，这种方法提高了标注过程的准确性和可扩展性，使其更适用于大规模任务。然而，这种方法的主要限制是它依赖于高度能力的外部模型，这意味着标注过程的性能最终受到所使用的外部模型能力的限制。

蒙特卡洛模拟标注：为了减少对强大外部模型的依赖，Wang等人[148]和Wang等人[156]提出了一种改进的方法，避免直接对中间步骤进行评分。相反，他们的方法使用一个外部模型从给定的中间输出继续推理几步，并随机重复这个模拟过程多次。中间步骤的质量然后根据这些扩展推理的平均结果进行评估。这种蒙特卡洛方法在数学问题解决和代码生成等任务中显示出了有希望的结果。

树搜索模拟标注：使用外部模型进行多步蒙特卡洛模拟并根据平均结果评估中间步骤质量的方法已成为最广泛使用的自动化过程标注方法之一。为了进一步提高这种方法的效率，Luo等人[85]提出了一种改进，用蒙特卡洛树搜索（MCTS）策略取代重复的蒙特卡洛模拟。在这种改进的方法中，使用 MCTS 从中间步骤生成多个代表最终推理结果的叶节点。中间步骤的质量然后根据这些叶节点的平均结果进行评估。与随机重复推理相比，MCTS 利用树搜索来提高推理质量，同时还允许叶节点共享高质量的父节点，减少计算开销并提高效率。这种方法在数学问题解决方面表现出色，优于人类标注。在基于 MCTS 的模拟的基础上，Zhang等人[183]在过程标注中引入了一个自我精炼机制。他们利用获得的过程标注来训练一个过程奖励函数（PRM），这反过来又提高了大语言模型（LLM）的性能。精炼后的大语言模型然后用于重复基于 MCTS 的模拟，生成更高质量的标注。这个迭代过程，涉及反复的改进循环，导致逐步增强的过程标注。这种方法在包括数学问题解决、问答和多领域知识推理等几个任务中表现出色，展示了其通过迭代增强不断精炼和提高标注质量的有效性。

4. 学习推理：从监督到强化微调

虽然预训练模型在各种任务中表现出色，但它们在处理复杂推理和使输出与人类期望对齐方面往往存在困难。微调对于解决这些限制至关重要，它可以优化模型在特定任务上的性能并增强其推理能力。最初，使用监督微调（SFT），其中模型从标记数据中学习特定任务的模式。然而，随着推理挑战的增加，强化学习（RL）和直接偏好优化（DPO）等方法提供了一种更有效的方法，使用奖励模型更有效地使模型的输出与类人推理对齐，促进更连贯、负责任和具有上下文意识的输出。

4.1 优化预训练的大语言模型：监督微调

监督微调是一种学习技术，它使用标记数据优化预训练模型在特定任务或领域的能力，同时保留模型对预训练知识的理解。虽然预训练使模型能够从大量非结构化数据中学习广泛的通用特征，但微调通过使模型接触具有明确输入 - 输出映射的较小特定任务数据集来使其专门化。

SFT 是提高大语言模型推理能力的关键步骤，通过将其从通用系统调整为特定领域的工具，使其能够应用于下游任务。例如，像 GPT[111]、BERT[30]和 T5[113]这样的大语言模型在大量文本数据上使用自监督学习进行预训练，使其具备广泛的语言理解和生成能力。然而，它们的输出并不总是与特定任务的要求对齐。如果不进行微调，大语言模型在某些推理任务上往往表现不佳，如对象计数[182]、卫星理解[91]和工程问题回答[154]。通过 SFT，我们可以通过基于标记的特定任务数据集优化模型的输出来部分解决这些挑战。

然而，直接应用 SFT 可能无法充分挖掘模型在所需领域的推理能力，特别是在需要更复杂决策或多步问题解决的任务中。思维链（CoT）技术[160]的引入彻底改变了 SFT 过程，通过明确训练模型在得出答案之前生成中间推理步骤。通过基于 CoT 的 SFT，大语言模型被鼓励明确生成中间推理步骤，从而增强其解决需要更结构化和有组织思维的任务的推理能力。例如，ReasonBert[29]表明，使用推理链微调模型通过纳入逐步推理过程显著提高了它们在数学文字问题和逻辑推理等任务上的性能。另一项关键研究[80]调查了微调模型如何通过生成更透明的逐步思维过程来提高其在复杂决策场景中的可解释性并减少错误。通过使用 CoT 进行微调，模型不仅提高了最终答案的质量，还增强了其“思考问题”的能力，为模型的推理过程提供了更清晰的见解。

尽管 SFT 有多种方法且性能出色，但它也有几个局限性。首先，SFT 严重依赖高质量的标记数据集，这些数据集的策划成本高昂且耗时，特别是对于小众领域或需要专家标注的任务。其次，SFT 可能导致灾难性遗忘，即模型在微调过程中丢失一些预训练的通用知识，降低其在微调领域之外的推理任务中的实用性。最后，即使使用参数高效的方法，微调大规模模型的计算成本仍然很高，这对资源有限的组织构成了挑战。解决这些局限性需要仔细策划数据集、正则化技术以及探索替代方法，如提示调整或多任务微调，以平衡任务专业化和泛化。

4.2 优化预训练的大语言模型：强化学习

由于对昂贵、高质量标记数据集的高度依赖以及 SFT 的高计算成本，强化学习已成为训练模型掌握推理过程的强大替代框架。与监督学习不同，RL 使模型能够通过试错奖励信号进行学习，发现实现特定目标的最优策略。如图 2（a）所示，模型根据其当前状态采取行动，并以奖励信号的形式接收反馈。这种反馈引导模型随时间更新其参数，以优化累积奖励。

经典强化学习。RL 已成为大语言模型发展的关键步骤。在 RL 框架中，大语言模型的参数根据其行动的奖励进行更新。具体来说，价值函数或 Q 函数根据奖励模型的反馈进行更新，将行动结果的功劳完全归因于其直接影响。这种方法简化了框架，使其在概念上简单明了，同时增强了模型有效响应的能力。目前，两种主要方法主导着大语言模型的 RL 训练：从人类反馈中进行强化学习（RLHF）和从人工智能反馈中进行强化学习（RLAIF）。

Ouyang 等人[104]使用 RLHF 使大语言模型与人类意图对齐。此外，通过在人类标注的演示和排名比较上微调 GPT - 3，他们开发了一个预测人类标注者偏好的奖励模型。它有效地使训练后的大语言模型与人类偏好对齐，在推理和指令遵循方面优于 GPT - 3，尽管规模较小。Bai 等人[8]也利用 RLHF 创建有益且无害的语言模型。遵循有益、诚实和无害的框架，他们微调一个基础模型，使用拒绝采样训练一个偏好模型，并使用人类反馈迭代地精炼它。这个过程产生了在自然语言处理任务中表现出色并展示出强大伦理推理能力的人工智能助手。

为了减少对大量人类标注数据集的依赖，Bai 等人[9]提出了宪法人工智能，一个使用原则而不是昂贵的人类反馈训练人工智能助手使其有益且无害的框架。这个过程包括两个阶段：监督学习和 RLAIF。在监督阶段，模型根据宪法原则批评和精炼其输出，创建一个微调数据集。在 RLAIF 阶段，模型生成自我评估来指导训练，绕过了对人类标注的有害性数据的需求。Ramamurthy 等人[114]专注于使用 RL 使大语言模型与人类偏好对齐。他们引入了 RL4LMs，一个用于基于 RL 的微调的库，以及 GRUE 基准，该基准使用反映人类偏好的奖励函数评估模型。为了解决训练挑战，他们提出了自然语言策略优化算法，通过约束标记采样来稳定训练。这项工作为将 RL 集成到 LLM 微调中以提高对齐和性能提供了坚实的基础。

直接偏好优化经典 RL 方法依赖于训练一个奖励模型来根据人类偏好对输出进行评分。而 DPO 通过直接利用偏好数据而无需显式奖励模型简化了这个过程。DPO 不是优化一个复杂的奖励函数，而是使用成对偏好比较，即指示两个输出中哪一个更受人类偏好的数据。这种直接方法简化了学习管道，同时保留了基于 RL 的方法的对齐优势，通常更简单且更有效。Rafailov 等人[112]引入了 DPO，一个用于对齐语言模型的新颖框架，通过简单的分类损失直接优化策略以与人类偏好对齐。通过参数化奖励模型以以封闭形式导出最优策略，DPO 在微调期间消除了对采样和广泛超参数调整的需求。实验表明，DPO 在情感控制、总结和对话生成等任务中与 RLHF 方法（如 PPO）匹配或超越，同时更稳定、计算效率更高且在产生推理输出方面更有效。Amini 等人[4]提出了带有偏移的直接偏好优化（ODPO），DPO 的一个扩展，用于使语言模型与人类偏好对齐。ODPO 通过考虑响应之间的偏好程度而不是平等对待所有偏好对来改进 DPO。它在优选和非优选响应的似然差中引入一个偏移，与它们的质量差成比例。这种方法不仅提高了对齐，还增强了模型的推理能力，特别是在情感控制、毒性降低和总结等任务中。实验表明，ODPO 实现了更好的对齐和负责任的行为，特别是当偏好数据有限时。

总之，RL 和 DPO 方法为培养大语言模型的推理能力提供了一种直接且有效的方法。通过关注每个行动后的即时奖励，这些方法还使模型与人类偏好对齐。对短期反馈的强调简化了学习过程，避免了在长序列中分配信用的复杂性。这种简化的方法特别适合实时应用和需要清晰、简洁推理的任务，最终增强了大语言模型提供连贯和道德结果的能力。

4.3 用结果奖励模型增强多步推理

对于复杂推理任务，如数学问题解决，大语言模型需要像思维链一样进行多步推理才能最终得出准确的解决方案。在这些任务中，奖励反馈通常只有在所有推理步骤完成并获得最终解决方案后才可用。如图 2（b）所示，这被称为结果奖励模型（ORM）。在这种情况下，提高大语言模型推理能力的关键在于根据结果奖励区分中间推理步骤的正确性和重要性。

经典强化学习。ReFT[143]将 RLHF[104]中的 PPO[121]方法应用于推理任务。基于结果奖励模型，PPO 中的价值函数能够推断中间推理步骤的贡献。与监督微调相比，ReFT 能够学习更多样化的推理路径，在推理任务中表现出更强的泛化能力。然而，VinePPO[60]发现，用 ORM 训练的 PPO 中的价值网络在识别中间推理步骤的价值时存在显著偏差，这是 RL 中一个众所周知的挑战，称为信用分配问题。为了解决这个问题，VinePPO 放弃了 PPO 中的价值网络，而是采用蒙特卡洛采样方法来计算价值函数的无偏估计。实验结果表明，VinePPO 在数学推理任务中始终优于典型的 PPO。关键计划步骤学习（CPL）是一种旨在通过在高级抽象计划中搜索来增强大语言模型在推理任务中的泛化能力的方法[150]。CPL 采用蒙特卡洛树搜索（MCTS）来探索多步推理任务中的不同规划步骤，并利用 Step - APO 学习关键计划步骤。这种方法使模型能够学习更多样化的推理路径，从而提高在各种任务中的泛化能力。随后，模型迭代地训练策略和价值模型以进一步提高性能。在每次迭代中，策略模型生成计划步骤和最终解决方案，而价值模型评估中间步骤的质量。由 MCTS 生成的训练数据用于更新策略和价值模型。

直接偏好优化。在数学推理任务中，由于偏好数据中存在冗长的推理步骤，直接应用 DPO[112]方法进行偏好优化会产生次优结果。Amini 等人[4]引入了 ODPO，它通过考虑响应之间的偏好程度而不是平等对待所有偏好对来改进 DPO。ODPO 在数学推理任务中比 DPO 有了显著的改进。

总之，基于结果奖励的训练的主要挑战在于区分中间推理步骤的正确性和重要性。目前的方法，主要基于蒙特卡洛采样或蒙特卡洛树搜索，在估计这些中间步骤的重要性方面具有优势，尽管搜索过程中的计算成本仍然很高。现有的工作主要集中在数学或其他推理问题上，这些问题的最终解决方案很容易验证。这些方法可以扩展到更广泛的推理任务，包括那些解决方案难以验证的任务。一种潜在的方法是基于人类标注数据学习一个奖励模型，并使用它来判断最终解决方案的质量。根据奖励模型提供的最终分数，可以使用蒙特卡洛采样或搜索技术进一步提高性能。

4.4 用过程奖励模型增强多步推理

基于过程奖励模型（PRM）的强化学习代表了大语言模型推理的一个重大进步，强调对中间步骤的评估，而不仅仅是关注最终状态结果。如图 2（c）所示，PRM 的奖励分布在每个推理步骤中，而不是集中在最终结果上。通过在整个推理轨迹中提供细致的反馈，PRM 使模型能够以更符合人类偏好和复杂任务要求的方式优化行为。这种方法对于涉及顺序决策的任务至关重要，其中中间步骤或决策对最终目标具有重要意义。我们探讨了 PRM 的演变，并强调了它们在通过在复杂任务中提供逐步奖励来提高推理能力方面的作用。

经典强化学习一系列近期工作将 PRM 应用于数学或逻辑推理，因为 OpenAI 的一项开创性工作[75]已经证明了过程奖励的重要性。SELF - EXPLORE[55]使用 PRM 通过识别和解决“第一陷阱”（即问题解决中的初始错误步骤）来增强数学推理。通过奖励纠正此类错误的步骤，PRM 实现了无需大量人类标注的自监督微调。该模型通过利用逐步的细粒度反馈，在数学基准测试如 GSM8K 和 MATH 上的准确性取得了显著提高。MATH - SHEPHERD[149]引入了一个专为数学推理任务中的逐步验证和强化而设计的 PRM 框架。通过采用受 MCTS 启发的方法自动进行过程监督，MATH - SHEPHERD 无需人类标注，同时确保了多步问题解决的高精度。PRM 用于强化逻辑进展和正确性，从而在 GSM8K 和 MATH 等基准测试上提高了性能。DeepSeekMath 通过组相对策略优化（GRPO）[128]集成了 PRM，GRPO 是一种优化逐步奖励的 RL 算法。PRM 用于增强数学推理和跨领域的推理一致性。通过专注于中间推理步骤，DeepSeekMath 在多个基准测试上达到了最先进的性能，展示了 PRM 在数学领域的强大功能。扩展自动化过程验证器引入了过程优势验证器（PAVs），这是一种 PRM 变体，用于评估问题解决过程中的逐步进展[123]。PAVs 使用逐步监督来提高搜索算法和强化学习的效率和准确性。通过专注于朝着正确解决方案取得有意义进展的步骤，PAVs 与结果奖励模型相比，在样本效率、计算效率和推理准确性方面实现了显著提高。这表明了细粒度过程奖励在扩展大语言模型推理能力方面的重要性。交互式过程奖励模型。PRM 也应用于交互式任务，如对话和多轮问答。ArCHer 采用分层 RL 方法，使用 PRM 训练智能体执行多轮、长视野任务[198]。它实现了一个双层系统：高级价值函数评估话语级奖励，而低级 PRM 优化每轮内的标记生成。这种分层结构确保了更有效的信用分配，并允许对语言模型进行细致的训练，以处理多轮交互和推理任务。使用 PRM 使 ArCHer 能够高效扩展，在智能体任务中实现了样本效率和性能的显著提高。多轮从偏好人类反馈中进行强化学习[126]将 PRM 集成到多轮强化学习中，以使用人类反馈优化长期目标。多轮偏好优化（MTPO）算法比较整个多轮交互以生成偏好信号，其中 PRM 用于分配逐步奖励。这使大语言模型智能体能够使其行为与长期目标对齐，提高了在动态、多轮任务如对话和战略决策中的整体性能。

直接偏好优化。几项近期研究利用 MCTS 通过直接偏好优化实现多步推理任务的优化[165, 17, 183, 16]。例如，SVPO[17]采用 MCTS 自动标注多步推理任务的逐步偏好。从学习排序的角度来看，它训练一个显式价值模型来复制隐式奖励模型的行为。此外，SVPO 将显式价值模型与 DPO 集成，其中价值模型不仅帮助策略模型导航更有效的推理路径，还指导偏好学习。然而，这些工作主要侧重于首先收集偏好数据或训练奖励模型，然后基于静态数据和预训练的奖励模型执行策略优化。Xie 等人[165]通过将数据收集和策略偏好优化集成到一个迭代过程中推进了这些方法。这种方法可以被视为直接偏好优化的在线版本，其中更新的策略通过 MCTS 迭代地用于收集偏好。

大语言模型的多步 RL 技术的演变反映了从基于稀疏结果的反馈到详细的面向过程的监督的转变。PRM 现在是大语言模型推理能力进展的核心，提供了细致的、逐步的奖励，推动了推理任务的显著改进。未来的研究可能侧重于完善这些模型并将其适用性扩展到不同的任务领域。

4.5 强化微调

强化微调（RFT）[101]是 OpenAI 最近提出的一种用于定制针对特定垂直领域的专家大语言模型的技术。目前，RFT 仍然是一个研究项目的一部分，技术细节尚未完全公布。现有信息表明，RFT 利用用户提供的少量偏好数据以及一个评分器模型来评估大语言模型的输出。这种技术能够迭代优化大语言模型的多步推理能力。因此，RFT 技术可以增强大语言模型在优化领域中通过类似问题进行推理的策略。

评分器模型。RFT 引入了评分器模型的概念来评估大语言模型的输出。考虑到强化学习训练通常需要一个奖励模型来提供反馈，评分器可能类似于一个奖励模型，将文本输入（例如问题和答案）转换为推理质量的标量值。这表明评分器可以作为一个基于用户提供的偏好数据训练的奖励模型，可能作为结果奖励模型或过程奖励模型[76]起作用。

数据效率。在 OpenAI 的现场会议中，提到 RFT 可以使用仅几十个用户偏好数据在新领域中实现学习。这表明 RFT 有助于基于有限的偏好数据探索多样化的推理路径来解决任务。这种方法展示了极高的样本效率，同时减轻了过拟合的风险[56]。

训练稳定性。强化学习训练的稳定性是一个众所周知的难题，对其更广泛的应用构成了重大挑战。随机种子的变化或某些超参数的调整可能会极大地影响 RL 的训练结果。在 RFT 项目的背景下，OpenAI 宣布计划通过 API 向公众提供这项技术，使用户能够使用自己的数据微调特定领域的专家模型。这一声明可能表明 RFT 已经达到了足以使用 RL 技术可靠地微调语言模型的稳定性水平。

5. 测试时间缩放：从思维链到 PRM 引导的搜索

5.1 用提示引发深思熟虑的思考

除了通过强化学习等技术在训练时间进行优化之外，研究人员发现像思维链和思维树这样的测试时间提示技术可以进一步增强大语言模型的能力[160, 153]。虽然简单地要求模型直接给出答案往往会产生次优结果，但在测试时通过明确的推理过程引导它们可以显著提高它们的性能[62]。这些提示策略在从数学推理到复杂决策任务等各个领域都表现出了显著的有效性[173, 196]。结构化提示方法如 ReAct 和从最少到最多提示的出现表明，大语言模型可以从组织思维过程的明确指导中受益，从而产生更可靠和可解释的输出[189]。虽然这些方法通常会增加标记消耗和计算开销，但它们通过增强大语言模型的推理能力和解决方案准确性，为训练时间方法提供了一个有吸引力的补充，而无需修改模型参数[172, 11]。这表明通过复杂的测试时间干预而不是仅仅依赖模型架构或训练修改来提高大语言模型性能是一个有前途的方向。

5.2 PRM 引导的搜索

如前所述，PRM 标志着从基于稀疏结果的反馈向详细的面向过程的监督的重大转变。更重要的是，PRM 也可以在测试时间阶段使用，在那里它可以进一步提高模型的推理能力。OpenAI o1 系列模型是 PRM 高级应用的一个突出例子。新的测试时间缩放定律表明，通过增加测试时间计算可以有效增强推理能力，为大语言模型的未来发展提供了一个明确的方向。我们介绍一些在推理阶段应用的方法，如图 3 所示。红色空心圆表示在推理阶段算法探索过程中丢弃的推理路径，绿色空心圆表示探索过程中采用的推理路径，绿色实心圆表示找到正确答案时推理路径的端点。

多数投票：多数投票是从密集的测试时间计算中生成一个最终答案的最直接策略之一。在推理过程中，每个推理轨迹都会为给定输入生成一个预测。基本思想是选择与大多数推理轨迹一致的答案。然后汇总所有模型的预测，并选择出现次数最多的类（“多数投票”）作为最终输出：，其中是指示函数，是每个评估轨迹。

树搜索[15]：树搜索是一种经典算法，通过递归构建搜索树系统地探索不同的选择。它常用于复杂决策问题，如棋盘游戏和规划任务。蒙特卡洛树搜索（MCTS）是最广泛使用的树搜索方法之一。它由四个主要步骤组成：选择、扩展、模拟和反向传播。通过逐步扩展搜索空间，MCTS 逐步提高决策质量。树搜索已经在一些大语言模型推理任务中得到应用，并取得了显著的成功。例如，思维树框架[172]使大语言模型能够考虑以树结构组织的多个推理路径。它结合自我评估来做出深思熟虑的决策，确定下一步的最佳行动方案。这种方法显著提高了模型推理的性能。

束搜索[133]：束搜索是贪婪搜索的改进版本，常用于生成任务中选择最优输出序列。主要思想是在每个时间步从所有候选路径中保留前个得分最高的路径（称为束）进行进一步扩展。与贪婪搜索不同，束搜索维护多个候选路径，从而扩展了搜索空间并提高了生成质量。束搜索在大语言模型推理中广泛应用。例如，BART[71]使用束搜索作为其主要推理策略，在文本生成任务中展示了其出色的有效性。

前瞻搜索[134]：前瞻搜索是另一种有前途的方法，有可能显著增强大语言模型推理。它修改了束搜索每一步的评分机制。不是仅仅根据当前步骤的分数选择最佳候选者，前瞻搜索通过向前模拟最多步来执行。如果在向前模拟过程中达到了解决方案端点，则提前停止该过程。在前瞻搜索期间，使用一个预训练且冻结的预测奖励模型对模拟的每一步进行评分。然后使用从 PRM 获得的步模拟的累积分数来确定是否保留或丢弃一个束分支。这种策略通过在每个评估步骤中纳入更多上下文来改进决策。与束搜索相比，前瞻搜索增加了探索空间的深度，允许根据更遥远的模拟决策来判断当前决策。然而，它也增加了对计算资源的需求，并且在计算资源有限时会导致性能不佳。

6. 通往大型推理模型的道路

6.1 OpenAI o1 系列的发展

2024 年 9 月，OpenAI 发布了 o1，这是一个开创性的语言模型，代表了人工智能推理能力的重大进步，尤其在数学、编码和科学问题解决等复杂任务中表现出色。2024 年 12 月 20 日，OpenAI 开放了 o3（o1 的升级版）的测试申请[102]，o3 被认为具有相当于博士水平的智能[7]。这些模型在各种具有挑战性的基准测试中取得了显著的成绩，包括在国际数学奥林匹克竞赛中获得金牌水平的分数[73]，以及在物理、化学和生物问题上达到与博士水平相当的表现[48]。广泛的评估通过对其基本推理能力的系统分析展示了 o1 系列的独特推理模式。我们列出了现有研究的关键发现如下：

有效的知识整合。初步的综合评估[194]表明，o1 在基本问题解决任务中具有结构化的分析方法和知识整合能力，通过逐步逻辑推导在竞争性编程中达到了 83.3%的成功率，在该过程中模型展示了使用其知识分解复杂问题并遵循正式推导过程的清晰能力。该模型在放射学和芯片设计等专业领域的结构化理解和互联知识应用得到了进一步证明，在这些领域中，准确的诊断和复杂的电路分析需要整合多个领域概念。系统评估[68]定量验证了这种模式，在结构化分析思维和计算推理任务中显示出了 150%的人类水平性能。这种优势在需要跨领域知识整合的场景中尤为突出，例如将物理原理应用于生物系统或结合统计方法与领域特定约束，表明了在知识合成和应用方面的基本能力。

系统的问题分解。o1 在不同复杂程度的任务中保持一致的性能，在处理难度增加的问题时表现出系统的问题分解能力。在数学推理中，详细研究[27]展示了其系统的问题分解方法，通过结构化的解决方案步骤在荷兰数学 B 考试中取得了近乎完美的分数。模型展示了识别关键数学原理、构建正式证明并逐步验证解决方案有效性的能力。这种一致性延伸到更复杂的场景，如对 105 个难度逐渐增加的科学和数学问题的研究[26]所示，即使问题在概念深度和计算要求方面的复杂性增加，模型仍保持高精度。在编程任务中，这种模式通过在 QuixBugs 基准测试上的系统调试[52]进一步得到证明，o1 通过结构化的三步方法（错误识别、根本原因分析和针对性纠正）在不同复杂程度的错误中保持一致的性能。

复杂任务中的可靠和连贯推理。该模型的推理在不同类型的问题中有效适应，在各种任务中始终显示出推理链的一致性。在规划任务中，PlanBench 评估[144]表明其能够系统地处理确定性和概率性场景，在约束满足和状态管理方面有显著改进。模型在处理信息不完整和动态约束的问题时表现出特别的优势，在标准和罕见的任务变体中保持一致的性能[94]。这种适应性表明了在不同问题表述中的强大泛化能力。对复杂规划的研究[46]进一步表明 o1 能够在长视野任务中保持推理的连贯性，有效地管理扩展的依赖链和上下文转换。这在多步规划问题中的表现得到了证明，在这些问题中，中间目标必须正确排序且依赖关系必须仔细管理，展示了在时间推理和因果理解方面的先进能力。

大型推理模型的新缩放定律。实证研究表明 o1 在训练和推理阶段具有独特的缩放模式。在训练过程中，模型的大规模强化学习算法通过高效的数据利用过程教会它使用思维链进行富有成效的思考[103]。研究[134]表明，通过优化的测试时间计算策略，模型在各种推理任务中实现了显著的性能提升。综合评估[194, 68]显示，o1 的推理能力可以通过在推理过程中进行高级计算分配有效地增强，特别是在复杂问题解决场景中。这种方法的缩放约束与大语言模型预训练的约束有很大不同，随着思考时间的增加，性能持续提高[103]。在编程任务中可以看到这一点，允许每个问题进行 10,000 次提交使模型能够取得显著更好的结果，即使在没有测试时间选择策略的情况下也能超过金牌阈值。模型在训练和推理过程中有效利用额外计算资源的能力表明了推理架构的根本进步，在传统方法可能需要显著更大模型规模的场景中表现出特别的优势。

6.2 大型推理模型的开源尝试

开源框架在开发大语言模型的高级推理能力方面也取得了重大进展。这些框架为旨在复制或近似专有模型（如 OpenAI 的 o1）推理优势的研究人员和开发人员提供了宝贵的参考。在本节中，我们介绍四个重要的开源努力，每个都采用不同的策略来增强大语言模型推理（总结在表 2 中）。通过探索它们的独特实现，我们旨在提供对用于增强大语言模型推理能力的不同方法的见解。

OpenR 项目[145]：该项目声称是第一个使用强化学习技术探索 OpenAI o1 模型核心方法的开源框架。OpenR 复制的核心是构建逐步推理数据，其中获得更精确和细粒度的反馈，而不是纯粹的最终答案。通过从构建的搜索树中选择推理轨迹，采用自动化数据增强算法 OmegaPRM[85]。基于对每个推理步骤进行监督的增强过程数据，在预训练的 Qwen2.5 - Math - 7B - Instruct 模型[168]上进一步以监督学习方案训练一个过程奖励模型。PRM 可以在测试时间计算中直接部署，与多数投票、最佳 - of - N 或束搜索方法集成。它也可以在训练后阶段使用 RL 微调大语言模型。进行实验以证明 PRM 在测试时间计算和训练后阶段的有效性。

Rest - MCTS*[183]：与分别训练 PRM 和微调策略模型不同，他们将这两个更新集成在一个相互的自训练循环中。基于类似设计的 MCTS 算法提前收集作为 PRM 训练监督的过程奖励和作为策略模型训练的推理轨迹。然后基于初始策略和初始 PRM 值开始迭代训练过程。策略进一步迭代地执行 MCTS 并生成解决方案，而值影响树搜索过程。它们的更新迭代地相互补充。

o1 复制之旅项目[110]：该项目不是全面考虑两个阶段的改进实现，而是旨在通过专注于综合训练策略来复制 OpenAI o1 模型的推理能力。它强调一个结构化的训练图，结合试错、反思和回溯来构建深度因果推理。该项目的一个核心方面是数据生成，设计高质量的训练示例来模拟复杂的推理路径。使用旅程学习方法，o1 复制之旅使模型暴露于各种逻辑序列和纠正中，鼓励在训练阶段进行探索和适应。然而，o1 复制之旅在推理阶段不太成熟，缺乏先进的训练后技术，这限制了其在实时推理中的适应性。这种对训练而非推理的关注突出了其与具有动态推理优化的模型相比的基础方法。

LLaMA - Berry[185]：该项目专注于在推理阶段优化推理能力，利用 LLaMA - 3.1 - 8B 架构提供更复杂的实时推理调整。它采用独特的成对优化方法，将蒙特卡洛树搜索与自我精炼（SR - MCTS）相结合，允许模型在推理过程中动态探索和精炼解决方案路径。这种配置赋予了 LLaMA - Berry 高度的适应性，使其能够高效且灵活地处理复杂的开放式推理任务。该框架的一个关键组件是成对偏好奖励模型（PPRM），它成对评估解决方案路径，确保高质量的推理路径被优先考虑。LLaMA - Berry 的增强博尔达计数（EBC）随后整合这些偏好排名，以指导模型的决策，进一步增强其在推理阶段的复杂性。这种强大的架构使 LLaMA - Berry 成为以推理为重点的强化的领先示例，与 o1 复制之旅以训练为中心的方法形成鲜明对比。

这四个开源框架不仅展示了强化推理的不同实现策略，而且在增进对 OpenAI o1 模型的理解方面发挥了重要作用。它们共同扩展了开源社区可用的技术范围，推进了开发复杂、透明和适应性强的推理模型的共同目标，将专有水平的能力引入公共可访问系统。

7. 其他测试时间增强技术

除了 PRM 引导的搜索之外，还有许多其他技术被设计用于通过更多的测试时间计算来增强大语言模型的推理能力。这些技术在不修改模型本身的情况下动态地精炼推理结果。诸如言语强化搜索、基于记忆的强化和智能体系统搜索等方法（如图 4 所示）表明，仅使用现成的大语言模型就可以实现显著的推理改进。探索这些方法的一些代表性工作总结在表 3 中。虽然这些方法没有利用 PRM，但它们为未来研究探索混合模型以进一步推进推理能力提供了基础。

7.1 言语强化搜索

言语强化搜索（VRS）利用大语言模型预训练的推理和语义能力来探索和优化解决方案空间。与传统的强化学习或训练密集型方法不同，VRS 纯粹通过测试时间推理运行，使用迭代反馈循环来精炼解决方案，而无需额外的训练。通过利用大语言模型中编码的语义知识及其遵循复杂指令的能力，VRS 提供了一种通用的方法来导航不同的问题空间。这种推理驱动的框架在单个智能体、多智能体系统和具身智能体中都有应用，支持广泛的任务，包括程序优化、协作决策和现实世界环境中的交互。本节通过这三个关键方面分析 VRS，深入探讨每个类别中呈现的方法和独特见解。

在单个智能体设置中，VRS 依赖于迭代推理和反馈机制在结构化问题空间中精炼解决方案。这种方法非常适合诸如数学优化、符号推理和假设驱动发现等任务，在这些任务中，系统的精炼显著提高了问题解决的结果。关于数学发现的研究说明了 VRS 如何将问题解决过程重塑为一个动态的迭代循环。例如，对组合问题（包括 cap set 和在线 bin - packing）的研究突出了程序解决方案如何通过反馈驱动的评估演变[115]。同样，符号回归研究将方程视为动态构造，迭代地生成、评估和优化数学表达式[130]。这些方法展示了 VRS 如何在受限空间中导航，在效率和准确性方面超越传统的优化技术。在科学发现中，VRS 在将推理与实证数据和模拟相结合方面显示出其效用。研究人员已经开发出用于生物医学假设精炼的系统，通过综合各种数据源。例如，在肿瘤学中的应用使用迭代综合来解决多尺度数据的复杂性[162]。在物理科学中，VRS 用于通过模拟反馈精炼假设，推动分子设计和物理定律发现等领域的发展[88]。这些发现强调了 VRS 在连接抽象推理与现实世界验证方面的作用，支持数据密集型和假设驱动的任务。启发式优化中的反思过程进一步展示了 VRS 的灵活性。例如，研究人员已经探索了迭代生成和评估解决组合问题的策略[174]。这种方法侧重于创建自适应超启发式方法，通过反馈循环不断精炼解决方案，在不同领域有效泛化。总体而言，VRS 应用迭代推理和反馈将抽象的问题解决与现实世界应用相连接，精确且适应性强地应对数学、科学和优化中的挑战。

在多智能体系统中，VRS 通过自然语言通信促进基于大语言模型的智能体之间的协作。这些系统利用共享推理和迭代精炼来处理复杂的解决方案空间，允许智能体交换见解并实现共同目标。在异构信息网络（HINs）中的元结构发现示例说明了 VRS 在多智能体环境中的应用。最近的研究将大语言模型推理与进化优化相结合，以精炼元结构，提高其可解释性和预测准确性[20]。同样，在社会经济预测中，多智能体系统整合知识图谱和元路径推理，提取跨任务见解，用于人口估计和经济活动预测等应用。这种方法促进了大语言模型智能体之间的协作，并提高了在多任务环境中的性能[199]。因果发现也受益于 VRS 启用的多智能体框架。例如，使用大语言模型作为推理智能体的系统协作辩论并提出因果关系。通过结合统计方法和自然语言交互，这些框架生成准确的因果图，同时解决因果关系中的模糊性[69]。在金融决策中，VRS 增强了层次协作。FINCON 框架采用经理 - 分析师系统，使用概念性言语强化精炼金融策略。通过最小化冗余通信并改进策略精炼，FINCON 展示了 VRS 在优化金融决策过程中的效用[176]。通过迭代精炼和共享推理，VRS 支持多智能体系统处理复杂任务，如元结构精炼、社会经济预测和金融决策。

在具身智能体设置中，VRS 通过将推理与物理交互相结合来解决现实世界任务，支持实验室环境中的实验规划和执行等活动。这些系统将 VRS 扩展到动态环境中，将语义推理与实际实验相结合。例如，自主化学研究已经展示了使用大语言模型驱动的系统独立设计、执行和精炼实验[13]。这些智能体集成了诸如机器人液体处理仪、光谱仪设备和基于网络的研究模块等工具，以执行诸如反应优化和化合物合成等任务。一个应用涉及优化钯催化的交叉偶联反应，其中系统使用自然语言提示确定条件、计算化学计量并自主执行实验。当遇到错误，如错误的模块调用时，系统通过参考文档并迭代任务来修改其方法。这个迭代过程展示了 VRS 如何支持实验工作流程中的适应性和精确性。通过结合推理和实时反馈，具身智能体展示了 VRS 在动态环境中精炼和优化复杂过程的能力。这些系统减少了人类干预，同时加速了科学发现，使其成为现实世界实验和创新的宝贵工具。

总体而言，先前的研究展示了 VRS 在单个智能体、多智能体系统和具身智能体中的适应性和有效性。利用大语言模型的语义推理和迭代反馈能力，VRS 无需额外训练即可处理广泛的任务。从数学和科学背景下的结构化优化到多智能体框架中的协作探索，再到现实世界应用中的动态实验，VRS 提供了一种统一的问题解决方法。VRS 作为一种通用框架，能够应对计算和物理领域的复杂挑战，同时推动不同领域的进步。

7.2 基于记忆的强化

当应用于开放式任务，如创意写作、复杂逻辑推理和开放世界游戏时，解决方案空间往往会急剧扩展，常常变得无界或不明确。这些任务通常需要与环境持续交互以获取相关信息，使得简单的解决方案空间搜索效率低下。为了解决这些挑战，一些研究为大语言模型智能体纳入了一个外部记忆模块。这个模块存储诸如过去试验中的观察、成功和失败的行动等信息。智能体迭代地探索其环境，使用记忆作为言语强化学习的基础。通过这个过程，它们总结经验，提取解决方案空间的可解释的高级见解，并在后续试验中精炼其行动，从而提高推理性能。这些研究不仅关注探索外部解决方案空间，还强调大语言模型智能体从记忆中发展对解决方案空间的理解的内在能力。随着智能体通过环境探索积累记忆，它们的能力逐渐得到强化并推广到未见过的任务。具体而言，我们将这一领域的研究分为以下三类。

体验式学习。这一类方法鼓励大语言模型智能体简单地模仿存储在记忆中的有利经验，同时避免不利经验。REMEMBERER[184]引入了一个半参数化的 RL - LLM 智能体，它在记忆中记录过去的观察 - 行动对，并使用传统的离策略 Q - 学习算法动态地维护和更新每个观察 - 行动对的 Q 值（预期未来奖励）。当面临新任务时，智能体从记忆中检索具有最高和最低 Q 值的相关行动，并将这些作为提示中的鼓励和不鼓励示例纳入。记忆共享[39]利用多智能体强化学习的概念来提高学习效率。多个智能体在共享环境中并发执行任务，并将高质量的提示 - 答案对贡献给一个集体记忆池。每个智能体可以从这个池中检索最相关的示例，以促进少样本学习。同样，体验式协同学习[108]采用多智能体框架，在多步代码生成过程中，指导智能体和辅助智能体交替提供指令和解决方案。这种动态交换有助于提取捷径，减少冗余并防止重复错误。当遇到新任务时，这些智能体交替检索相关记忆，以提高上下文学习能力。

反思性学习。虽然将记忆用作少样本示例是直接有效的，但这种方法没有充分利用大语言模型的语义理解能力。一些研究认为，大语言模型智能体应该直接反思存储在记忆中的成功和失败，明确总结潜在原因，并将这些见解用作指导方针。Reflexion[129]是这一领域的开创性努力，它基于任务反馈信号在语义上反思成功或失败的原因。它将反思性文本和过去的轨迹整合到提示中，以增强后续试验中的决策。ExpeL[190]结合模仿和反思，通过从记忆中检索最相关的成功经验，总结成功轨迹的模式，并从成功 - 失败对的比较中识别见解。RAHL[138]受分层强化学习的启发，将记忆组织成目标模块和子任务模块，实现不同层次的反思和经验总结。对于新任务，它检索相关经验，分别制定高级目标和低级子任务。

概念学习。明确的反思显著增强了大语言模型的推理能力。在此基础上，一些研究旨在使大语言模型智能体能够发展超越特定任务的广义“概念”，促进对环境和任务的更广泛理解。这种泛化帮助智能体从记忆中内化认知能力，并随着记忆的增长不断发展。Agent - Pro[188]例如，使智能体能够在基于卡片的游戏中建立关于自身和环境的信念。它不是反思单个行动，而是评估这些信念的合理性和一致性，迭代地精炼策略。同样，Richelieu[44]使智能体在军事战略游戏中具备对环境的理解。它从记忆中检索最相关的状态来制定计划并评估可行性。通过采用自我对弈，它自主收集经验，扮演所有玩家的角色以推进其知识。Self - Evolving GPT[40]受人类记忆机制的启发，为大语言模型设计了一个基于记忆的自主学习框架。它对任务进行分类，以确定相关的记忆检索，并识别存储的记忆与当前任务之间的差异，以提取共享的一般经验。此外，它生成未见过的任务进行练习，根据记忆检索结果巩固其知识。

7.3 智能体系统搜索

智能体系统的设计在利用大语言模型的力量完成许多下游任务中起着至关重要的作用。测试时间增强技术的一个重要分支是利用大语言模型搜索智能体系统。这一领域的研究可以分为三个层次的搜索：提示层次、模块层次和智能体层次。请注意，这种方法的目的不是直接搜索解决方案空间，而是利用经验数据优化智能体系统本身，这类似于一个元学习问题。我们总结了这一领域的相关工作如下。

提示层次。“验证和纠正”过程通过迭代整合有用的反馈经验来改进提示。验证信号可以来自外部反馈[43]、大语言模型的自我评估[90]和其他来源。另一方面，提示本身也值得搜索和优化。自动化提示工程，如进化提示优化[38]和元提示迭代[169]，可以取得比手动提示更好的结果，但也会引入更多的标记消耗。

模块层次。Agentsquare[125]提议使用大语言模型搜索智能体系统的模块化设计，其中模块本质上是具有特定功能（如规划、推理、工具使用和记忆）的提示块。这些智能体模块的基本单元具有标准的 I/O 接口，使其能够良好地相互协作。模块层次搜索的优势在于它允许新智能体通过模块重组轻松重用经典智能体设计，如 CoT 和 ToT。此外，Aflow[186]通过由代码表示的边连接大语言模型的不同调用节点。除了搜索方法，还需要评估搜索到的智能体的性能。用于评估智能体性能的函数也可以由大语言模型驱动，以提高搜索效率，同时紧密匹配其实际性能。

智能体层次。ADAS 提议利用大语言模型搜索在 Python 代码空间中定义的整个智能体系统[53]。此外，多智能体系统在共享环境中做出决策并实现目标。在多智能体层次搜索中，关键方面包括智能体创建、环境感知、行动、交互和系统进化。多智能体系统的搜索在下游任务如长篇故事创作[54]中取得了良好的效果。目前正在探索多智能体系统的统一搜索和优化机制。GPTSwarm[200]通过图优化增强智能体的协作能力。

智能体系统搜索为智能体提供了自我改进的能力，使其能够优化自身以增强推理能力，而无需对大语言模型结构进行更改。上述三个搜索层次都有巨大的搜索空间。这三个搜索层次面临的共同挑战是提高搜索效率、降低搜索成本、确保自动化，同时确保搜索的合理性。

7.4 总结

本节中回顾的测试时间增强技术目前尚未纳入大型推理模型的实现中。然而，它们有巨大的潜力通过更全面的测试时间“思考”进一步提高大语言模型的推理能力，促进大语言模型在解决方案空间中进行策略性推理，利用过去的经验并动态优化智能体工作流程。因此，训练大语言模型掌握这些测试时间技术代表了一个有前途的未来研究方向，有可能将大语言模型从“推理者”提升为功能齐全的“智能体”。

8. 评估基准

设计一个强大的基准对于记录大语言模型能力的提高至关重要。它在选择有前途的研究方向以进一步推进方面也起着关键作用。在本节中，我们系统地回顾了流行的大语言模型推理基准，这些基准在图 5 中进行了分类总结。我们对这些基准的讨论如下。

8.1 数学问题

数学推理已成为评估大语言模型推理能力的关键测试平台。数学推理基准的范围从基础算术到高级大学水平数学，提供了评估数学理解和问题解决能力不同方面的系统方法。

在数学文字问题（MWP）领域，基准从基本算术运算发展到日益复杂的问题解决场景。在基础层面，数据集如 MATH - 401[177]通过 401 个精心结构化的表达式评估纯算术能力，而 MultiArith[116]和 AddSub[51]评估将简单文字问题转换为数学运算（如加法或减法）的能力。转向小学和高中水平，全面的数据集如 GSM8K[24]和 MATH[50]呈现了更复杂的多步推理挑战，GSM8K 提供了 8.5K 个小学问题，MATH 提供了 12.5K 个涵盖各种数学领域且难度递增的问题。

高级数学能力的评估主要通过竞赛和专门的测试数据集进行。集合如 CHAMP[92]和 ARB[5]呈现了竞赛级别的问题，需要复杂的问题解决策略，而 MATHQA[5]纳入了来自 GRE 和 GMAT 考试的标准化测试问题。在最高水平，数据集如 FIMO[78]用国际数学奥林匹克竞赛问题挑战模型，测试自动数学推理的极限。

几何推理代表了一个独特的类别，需要空间理解和正式数学证明。数据集如 Geometry3K[82]和 GEOQA[19]提供了专门的几何问题，而 UniGEO[18]提供了一个统一的几何推理任务框架，专注于计算和证明。这些基准在评估模型连接视觉和数学推理的能力方面特别有价值。

定理证明和形式数学领域已经发展到包括严格的评估框架。MINIF2F[193]和 LeanDojo[170]专注于与 Lean 定理相关的形式数学证明，而 THEOREMQA - MATH[23]检查对数学定理的理解。专门的数据集如 TRIGO[166]和 PISA[57]解决数学推理的特定领域，如三角学和形式证明系统。

最后，跨模态数学推理已成为一个关键领域，反映了数学问题在现实世界场景中的多种呈现方式。MATHVISTA[81]和 CHARTQA[93]通过图表评估视觉数学推理，而 TABMWP[83]和 MultiHiertt[192]评估使用表格和文本数据进行推理的能力。SciBench[151]弥合了纯数学和科学应用之间的差距，在更广泛的科学背景下测试数学推理能力。

8.2 逻辑问题

在数学推理能力的基础上，进行系统逻辑推理的能力是评估大语言模型认知能力的另一个基本标准。虽然数学推理侧重于定量运算和正式证明，但逻辑推理涵盖了更广泛的能力，即在不同背景下得出有效结论、识别模式和生成合理解释。根据 Luo 等人[86]的说法，逻辑推理可以分为三种主要类型：演绎、归纳和溯因推理。每种类型代表了全面逻辑分析中必不可少的独特认知过程，同时在认知评估中保持相互联系。

演绎推理，也称为基于前提的推理，涉及从一般原则绝对确定地推导出特定结论。例如，给定一组关于实体之间关系的规则，模型必须确定哪些特定关系必须为真。ProofWriter[140]是这一类别的示例，要求模型从给定前提构建明确的逻辑推导。其他基准，如 FOLIO[46]和 PrOntoQA[119]在自然语境中评估一阶逻辑推理，WaNLI[77]通过 107,885 个示例引入了越来越复杂的评估标准。

归纳推理强调从特定观察到更广泛原则的模式识别和泛化[47]。这涉及识别潜在规律并将其扩展到新情况，处理概率而非确定性。BigBench[136]有许多专门组件，用于检查高级模式推断能力。此外，CLUTTR[132]基准系列通过不同复杂程度的关系模式评估这种能力。

溯因推理，也称为解释性推理，是指为一组观察或事实形成最可能的解释的过程，即使结论不一定确定[34]。这种类型的推理测试模型如何通过生成合理的解释来处理信息不完整的场景。αNLI[99]基准通过叙事完成任务实现这一点，其中模型必须为给定情况选择最可能的解释。AbductionRule[175]系列在不同领域提供结构化评估框架，有针对动物相关和人相关推理场景的特定变体。αARCT[100]专门检查选择和证明合理解释以及论证理解的能力。

8.3 常识问题

常识推理仍然是自然语言处理中的一个重大挑战，因为它旨在评估大语言模型理解和应用日常常识知识的能力。有各种针对不同维度常识推理任务的基准。例如，CommonsenseQA[141]要求模型回答基于常识知识库的推理问题。

SocialIQA[118]专注于社会互动常识推理，围绕社会场景中的因果推理展开。相比之下，数据集如 SWAG[178]和 HellaSwag[179]引入了对抗性文本推理任务，其中模型必须根据上下文线索预测事件的最合理延续，从而增加了任务的复杂性。对于物理常识推理，基准如 PIQA[12]和 PHYRE[10]专注于评估模型对日常物理任务和互动推理场景的理解。PIQA 主要使用问答任务，而 PHYRE 强调互动物理模拟。同样，WinoGrande[117]在 Winograd Schema Challenge 的基础上，引入了更大规模的数据集和更复杂的消歧任务，以测试语义理解和共指消解能力。

其他工作，如 OBQA[95]和 CConS[63]探索模型在反常识背景下的性能，突出了当前模型在隐式推理和背景知识利用方面面临的挑战。最近，综合基准如 MMLU[49]和关键研究如 FactCC[66]进一步分析了大语言模型的常识推理和事实推理。这些基准为语言模型的泛化能力提供了有价值的视角，并作为评估和提高其在各种常识推理任务中性能的宝贵工具。

8.4 编码问题

代码生成基准的发展对于评估大语言模型在编程任务中的推理能力起到了重要作用。这些基准评估模型在不同领域生成准确、高效和可靠代码的熟练程度。例如，ODEX[155]引入了一个执行驱动的评估框架，用于开放域代码生成，强调运行生成的代码以验证其正确性和功能的重要性。

在现实世界场景中，SWE - bench[58]专注于真实的 GitHub 问题，挑战模型解决实际软件工程问题。在数据科学领域，DS - 1000[67]展示了一个以真实可靠的数据科学代码生成任务为特色的基准，能够评估模型处理复杂数据操作和分析的能力。此外，APPS 基准[49]通过在各种编程问题上评估模型来衡量编码挑战能力，反映了在竞争性编程和技术面试中遇到的挑战。

MBPP[6]专注于程序合成问题，评估模型根据给定规范生成正确和高效代码的能力，从而有助于理解大语言模型在自动代码生成方面的能力。HumanEval[21]通过提供一组 Python 编程问题来评估在代码上训练的大语言模型，每个问题都有函数定义和随附文档，要求模型生成正确且功能正常的代码解决方案。

8.5 智能体问题

基于智能体的基准的出现彻底改变了我们评估大语言模型作为交互式环境中独立智能体的能力。这些复杂的评估框架评估在不同场景中的关键能力，包括决策、推理和环境交互。

WebArena[197]提供了一个构建和测试自主智能体的实用网络环境，能够评估大语言模型的网络导航和交互技能。同样，Mind2Web[28]旨在开发能够在不同网络任务中运行的通用智能体，强调在动态在线环境中的适应性。

在电子商务环境中，WebShop[171]引入了一个用于可扩展现实世界网络交互的平台，专注于能够执行在线购物等任务的接地语言智能体，从而测试模型的实际应用能力。为了弥合文本和具身环境之间的差距，ALFWorld[131]将基于文本的输入与互动学习场景对齐，便于评估模型在不同模态之间转移知识的能力。

综合评估框架如 AgentBench[79]和 AgentGym[164]已经被开发出来，以系统地评估作为智能体的大语言模型。AgentBench 包括不同的环境来评估推理和决策技能，而 AgentGym 专注于在不同环境中进化基于大语言模型的智能体，强调适应性和学习效率。此外，AgentBoard[87]提供了一个分析平台，用于评估多轮大语言模型智能体，提供对其在扩展交互中的性能的洞察，并突出在持续推理任务中需要改进的领域。

9. 讨论

9.1 近期进展的启示

训练后阶段的缩放定律。OpenAI o1 系列带来的启示导致了对预训练/训练/推理阶段的新理解。特别是，它涉及在训练后阶段引入自我对弈强化学习和高质量思维链标注数据的过程奖励学习。进一步，它延伸到训练后阶段的缩放定律，这为训练阶段缩放定律进一步发展的困难提供了启示。如我们所知，预训练和训练阶段的缩放定律导致了流行的大语言模型的成功，这得益于大量的训练数据和计算资源投入。然而，现在它遇到了瓶颈，因此，训练后阶段的缩放定律可能成为大型语言模型下一阶段发展的驱动力。此外，大语言模型驱动的智能体[163]即使在推理能力未得到强化的情况下，通过精心设计的工作流程也显示出了巨大的潜力。因此，对于大语言模型智能体在资源消耗和性能方面是否也会有类似的缩放定律仍然是一个开放问题，这可能是在现实世界应用中进一步增强大语言模型的潜力。最后，目前展示的测试时间缩放定律和模型的指令跟随能力之间可能存在关系；也就是说，它必须有足够强的指令跟随能力才能展示测试时间缩放定律。例如，言语强化搜索技术的成功需要大语言模型具有基本的指令跟随能力。因此，如果大语言模型不能准确地遵循指令，复杂的训练后技术可能无法正常工作。

通过搜索生成高质量数据。OpenAI o1 系列核心技术人员披露的技术思路以及试图重现 OpenAI o1 的开源工作目前都将生成高质量数据（包括思维链数据）视为关键，尽管采用了不同的方法，如蒙特卡洛树搜索、大语言模型生成等。也就是说，大型推理模型的发展已经到了一个阶段，高质量的过程奖励数据比一般的预训练数据规模更重要。同样，如上文所讨论的，这可能启发我们在大语言模型智能体中也参考这些相关方法，首先进行高质量数据生成，然后增强慢推理学习和能力获取。

9.2 慢思考和推理

即使 OpenAI o1 系列在工程层面的突破仍然未知，但从理论和技术上讲，其目前的突破似乎主要在于慢思考数据的训练后学习。此外，“系统 1 + 系统 2”的人类认知科学已被多次提及，但基于大型模型实现它的思路一直在不断更新，主要仍停留在借鉴慢思考概念的阶段。也就是说，人类大脑的名为“系统 1 + 系统 2”的机制指导了大语言模型的设计，但这种指导仍然非常有限。换句话说，对人类大脑的模仿只是在系统层面的设计，而不是非常详细的技术。人类慢思考的复杂机制及其益处仍然显示出支持大语言模型下一级推理能力的高潜力。为了实现这一点，应该在推理数据生成、奖励函数、学习过程等相关设计中使用慢思考的领域知识。

到目前为止，还没有关于大语言模型慢思考的真正重要和有代表性的理论分析工作。生成式人工智能如此神秘，理解大语言模型也需要一些技巧或特殊技术，如理解大语言模型幻觉的新指标[37]。为了理解慢推理能力，我们可能也需要进入理论分析。以 OpenAI o1 Preview 和 OpenAI o1 Mini 这两个不同版本为例，主要区别在于思维链推理阶段的成本和思考深度，但它们在文本生成、代码生成和数学问题解决等任务中表现出了显著的差异。大语言模型展示的推理特性也启发我们设计适应任务的使用和应用。具体来说，将推理机制与不同任务中的性能联系起来可能会支持更有趣的见解。

9.3 下游应用和开放问题

如本文通篇所指出的，推理增强技术的进展迅速。推理能力不限于这些流行基准任务中的任务，还包括下游应用中的更一般任务。例如，FunSearch 工作[115]展示了处理难以提供解决方案但验证快速的任务的一般能力。在各个领域可能存在许多具有类似特征的任务，如城市规划、物流调度等。一个有趣的问题是，当前研究中是否可能存在许多互补问题，这些问题难以验证，但推理过程更容易。可能可以通过结合大语言模型和外部评估器进一步验证一些答案的质量，或者我们可以使用这些有评估分数的答案来训练奖励模型。

10. 结论

大语言模型的近期发展显著提升了它们的类人推理能力。引入“思维”等中间步骤概念、利用强化学习技术进行训练时间缩放以及使用搜索算法进行测试时间缩放等创新为大型推理模型奠定了基础，这些模型能够处理日益复杂的认知任务，如 OpenAI 的 o1 系列所示。该领域的持续进展有望重塑我们对语言的理解以及人工智能在解决现实世界问题中的应用。

作者：张长旺，图源：旺知识

参考资料

标题：Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models作者：Fengli Xu, Qianyue Hao, Zefang Zong, Jingwei Wang, Yunke Zhang, Jingyi Wang, Xiaochong Lan, Jiahui Gong, Tianjian Ouyang, Fanjin Meng, Chenyang Shao, Yuwei Yan, Qinglong Yang, Yiwen Song, Sijian Ren, Xinyuan Hu, Yu Li, Jie Feng, Chen Gao, Yong Li单位：1 Tsinghua University, Beijing, China; 2 HKUST (GZ), Guangzhou, China; 3 Emory University, Atlanta GA, USA标签：人工智能、大语言模型、强化学习、推理模型概述: 本文综述了大语言模型推理的最新进展，介绍了其基础背景、关键技术组件、开源项目、测试时间增强技术和评估基准，并讨论了开放问题和未来研究方向。链接：https://arxiv.org/pdf/2501.09686

上一篇：YY直播发布首个直播服务型数字人“灵儿” 公测阶段平均每天服务超100万用户
下一篇：老将荣耀！担任亚冬会闭幕式旗手！徐梦桃：感谢中国体育代表团的信任！