在人工智能领域,强化学习技术被视为推动通用人工智能(AGI)发展的关键。然而,奖励模型的设计和训练长期制约着其性能提升。近期,上海AI实验室提出了一种创新的策略判别学习范式,成功解决了这一瓶颈问题,并为奖励模型的规模化应用提供了新路径。这一突破性进展不仅优化了大语言模型的后训练范式,也为未来AI的发展奠定了重要基础。
客服热线请拨打
400-998-8033