近年来,随着大型模型推理能力的不断提升,研究者开始关注如何在测试阶段扩展其性能。近期出现了一些新的研究范式,主要包括结构化搜索策略(如蒙特卡洛树搜索MCTS)、结合过程奖励模型与PPO(Proximal Policy Optimization)的方法,以及可验证奖励机制与GRPO(Guided Policy Optimization)相结合的技术,例如DeepSeek R1。这些方法旨在增强大模型的元思考能力和泛化表现,使其在复杂任务中展现出更强的推理水平和适应性。
大模型推理测试时间扩展结构化搜索奖励机制元思考能力
2025-07-04