技术博客

GRPO卫兵：视觉生成领域的过优化问题解决方案

快手可灵与中山大学联合推出的“GRPO卫兵”项目，针对视觉生成领域中GRPO训练存在的过优化问题开展了深入研究。该项目提出的GRPO-Guard方法，创新性地引入比率归一化（RatioNorm）技术与跨步梯度平衡机制，有效稳定了策略模型的更新过程。同时，该方法恢复了裁剪机制对正样本的约束能力，显著缓解了训练过程中的过度优化现象，提升了生成内容的质量与稳定性。

GRPO卫兵比率归一梯度平衡视觉生成过优化

2025-11-13

AI热点

2026-07-01

开源AI运维系统：百万服务器背后的技术革命与社区共建

科技热点

开源AI运维系统：百万服务器背后的技术革命与社区共建