技术博客

HPT算法：语言模型性能提升的新篇章

清华大学的研究团队提出了一种名为HPT（Hybrid Policy Training）的创新算法，该算法在统一的理论框架下，实现了对SFT（Supervised Fine-Tuning）和RL（Reinforcement Learning）的动态融合。通过这一算法，语言模型能够自适应地结合监督微调和强化学习技术，从而显著提升模型性能，并超越当前最佳技术水平（SOTA）。研究还表明，即使是小型模型也能从HPT算法中受益，展现出更强的优化潜力。这一成果为工程师提供了一种高效的新工具，用于进一步提升大型语言模型的后训练能力，具有广泛的应用前景。

HPT算法语言模型动态融合SFT技术强化学习

2025-09-16

AI热点

2025-09-16

开源大模型生态下的创新趋势：Vibe Coding项目的人机协作革新

科技热点

开源大模型生态下的创新趋势：Vibe Coding项目的人机协作革新