清华大学的研究团队提出了一种名为HPT(Hybrid Policy Training)的创新算法,该算法在统一的理论框架下,实现了对SFT(Supervised Fine-Tuning)和RL(Reinforcement Learning)的动态融合。通过这一算法,语言模型能够自适应地结合监督微调和强化学习技术,从而显著提升模型性能,并超越当前最佳技术水平(SOTA)。研究还表明,即使是小型模型也能从HPT算法中受益,展现出更强的优化潜力。这一成果为工程师提供了一种高效的新工具,用于进一步提升大型语言模型的后训练能力,具有广泛的应用前景。