在探索大型语言模型(LLM)强化学习(RL)的不稳定性问题时,Qwen团队从一阶近似的角度提出了新的见解。研究发现,为优化基于序列的奖励期望值,可采用一种基于token的替代目标作为一阶近似,从而提升训练稳定性与效率。与此同时,阿里千问团队提出了一种专为LLM设计的全新强化学习公式化方法,进一步推动了该方向的发展。这一系列工作为大模型在复杂任务中的持续优化提供了理论支持与实践路径。
客服热线请拨打
400-998-8033