创新开源框架OpenR 有效提升大模型推理能力

一个名为OpenR的创新开源框架近日问世，旨在解决大型语言模型（LLMs）在复杂推理任务中的短板。这一由伦敦大学学院、利物浦大学、上海交通大学、香港科技大学(广州)和西湖大学研究人员联合开发的框架，通过结合测试时计算、强化学习和过程监督，为提升LLMs的推理能力开辟了新途径。

尽管LLMs在语言生成方面取得了显著进展，但在处理数学、编程和科学问题等复杂任务时仍面临挑战。OpenR的出现正是为了弥补这一差距，将LLMs的能力从简单的文本生成拓展到更高级的推理领域。

OpenR的设计灵感部分来自OpenAI的 o1模型，但其目标更为宏大:不仅要复制先进语言模型的推理能力，还要在此基础上实现突破。作为首个提供如此复杂推理支持的开源解决方案，OpenR聚焦于数据获取、过程奖励模型和高效推理方法，旨在加速推理专注型大型语言模型的发展。

图源备注：图片由AI生成，图片授权服务商Midjourney

该框架的核心结构围绕数据增强、策略学习和推理引导搭配多路径探索展开。OpenR采用马尔可夫决策过程（MDP）对推理任务进行建模，将复杂的推理过程分解为一系列可评估和优化的步骤。这种方法不仅直接培养推理技能，还能在每个阶段探索多个推理路径，大大提高了推理过程的稳健性。

框架的另一个关键特性是过程奖励模型（PRM），它为中间推理步骤提供详细反馈，使模型能够更精确地调整决策，而不仅仅依赖最终结果的评判。这种细粒度的指导显著提升了模型的学习效率。

在实际测试中，OpenR展现出令人瞩目的性能。以MATH数据集为基准，OpenR的推理准确率比传统方法提高了约10%。研究还发现，"Best-of-N"和"Beam Search"等多路径探索方法明显优于简单的多数投票技术，特别是在计算资源受限的情况下。

OpenR的强化学习技术，尤其是那些利用PRM的方法，在在线策略学习场景中表现出色，促进了LLMs推理能力的持续提升。这一成果表明，通过精心设计的学习策略，LLMs有潜力在复杂推理任务中取得突破性进展。

作为一个开源平台，OpenR为研究人员和开发者提供了宝贵的资源，以共同推进语言模型的推理能力。它不仅为当前的LLMs提供了升级路径，还为未来更智能、更具推理能力的AI系统铺平了道路。

展望未来，OpenR团队计划进一步扩展框架的功能，涵盖更广泛的推理任务类型，并持续优化其推理流程。这一努力有望为实现自我提升的推理型AI代理这一长远目标做出重要贡献。

项目地址：https://github.com/facebook/openr