华为香港研究所的小艺团队联合诺亚方舟实验室及香港城市大学,共同研发了全新的GHPO算法框架。该框架首次成功结合了强化学习(RL)与模仿学习(SFT)的优势,通过动态引导模型进行高效的推理训练,实现了在线强化学习与模仿学习的深度融合。GHPO算法的独特之处在于其能够根据实际需求,自适应地在强化学习和模仿学习之间切换,从而提升模型训练的效率和稳定性。这一创新为人工智能领域提供了全新的方法论,也为未来模型优化开辟了更多可能性。
客服热线请拨打
400-998-8033