随着大型推理模型在复杂任务中的表现不断提升,一种结合强化学习(RL)与软性函数变换(SFT)优势的训练方法——ZERO-RL,正成为推动这一进步的核心技术。该方法通过可验证奖励强化学习(RLVR)动态引导模型,逐步增强其在强推理场景中的首次通过率(pass@1),从而显著提高模型效率。新一代模型如OpenAI-o3、DeepSeek-R1和Kimi-1.5已成功应用该技术,在数学和编程等高难度推理任务中展现出卓越能力。
客服热线请拨打
400-998-8033