一个名为OpenR的创新开源框架近日问世,旨在解决大型语言模型(LLMs)在复杂推理任务中的短板。这一由伦敦大学学院、利物浦大学、上海交通大学、香港科技大学(广州)和西湖大学研究人员联合开发的框架,通过结合测试时计算、强化学习和过程监督,为提升LLMs的推理能力开辟了新途径。

尽管LLMs在语言生成方面取得了显著进展,但在处理数学、编程和科学问题等复杂任务时仍面临挑战。OpenR的出现正是为了弥补这一差距,将LLMs的能力从简单的文本生成拓展到更高级的推理领域。

OpenR的设计灵感部分来自OpenAI的 o1模型,但其目标更为宏大:不仅要复制先进语言模型的推理能力,还要在此基础上实现突破。作为首个提供如此复杂推理支持的开源解决方案,OpenR聚焦于数据获取、过程奖励模型和高效推理方法,旨在加速推理专注型大型语言模型的发展。

图源备注:图片由AI生成,图片授权服务商Midjourney

该框架的核心结构围绕数据增强、策略学习和推理引导搭配多路径探索展开。OpenR采用马尔可夫决策过程(MDP)对推理任务进行建模,将复杂的推理过程分解为一系列可评估和优化的步骤。这种方法不仅直接培养推理技能,还能在每个阶段探索多个推理路径,大大提高了推理过程的稳健性。

框架的另一个关键特性是过程奖励模型(PRM),它为中间推理步骤提供详细反馈,使模型能够更精确地调整决策,而不仅仅依赖最终结果的评判。这种细粒度的指导显著提升了模型的学习效率。

在实际测试中,OpenR展现出令人瞩目的性能。以MATH数据集为基准,OpenR的推理准确率比传统方法提高了约10%。研究还发现,"Best-of-N"和"Beam Search"等多路径探索方法明显优于简单的多数投票技术,特别是在计算资源受限的情况下。

OpenR的强化学习技术,尤其是那些利用PRM的方法,在在线策略学习场景中表现出色,促进了LLMs推理能力的持续提升。这一成果表明,通过精心设计的学习策略,LLMs有潜力在复杂推理任务中取得突破性进展。

作为一个开源平台,OpenR为研究人员和开发者提供了宝贵的资源,以共同推进语言模型的推理能力。它不仅为当前的LLMs提供了升级路径,还为未来更智能、更具推理能力的AI系统铺平了道路。

展望未来,OpenR团队计划进一步扩展框架的功能,涵盖更广泛的推理任务类型,并持续优化其推理流程。这一努力有望为实现自我提升的推理型AI代理这一长远目标做出重要贡献。

项目地址:https://github.com/facebook/openr