IBM Research近期提出了一种名为组相对策略优化(GRPO)的算法,该算法通过融合可验证奖励与适应性加权对比损失机制,显著提升了模型推理能力。在实际应用中,GRPO不仅提高了模型的成功概率,还通过迭代过程持续增强了这一概率,为人工智能领域带来了新的突破。
客服热线请拨打
400-998-8033