快手可灵与中山大学联合推出的“GRPO卫兵”项目,针对视觉生成领域中GRPO训练存在的过优化问题开展了深入研究。该项目提出的GRPO-Guard方法,创新性地引入比率归一化(RatioNorm)技术与跨步梯度平衡机制,有效稳定了策略模型的更新过程。同时,该方法恢复了裁剪机制对正样本的约束能力,显著缓解了训练过程中的过度优化现象,提升了生成内容的质量与稳定性。
客服热线请拨打
400-998-8033