AI技术正迈向新阶段——模型具备自我制定评估规则的能力。EVOLM技术系统揭示了模型评估能力的结构化进化路径。基于Qwen3-8B训练的rubric生成器,在RewardBench-2测试中表现超越GPT-4.1,提升达25.7%;其衍生策略在OLMo3-Adapt的12项基准测试中平均得分69.3%,较GPT-4.1训练策略高出3.9%,更显著优于当前最先进的8B标量奖励模型SkyWork-RM训练策略16%。该成果标志着奖励建模与模型自评能力的重大突破。
EVOLM技术Rubric生成模型自评奖励建模Qwen3-8B
2026-05-12