近日,首个多模态统一CoT奖励模型正式发布,这一突破性进展为智能评估系统带来了全新可能。UnifiedReward-Think不仅能够进行评分,还具备认知理解、逻辑推理及可解释输出的能力。该模型的训练脚本及相关数据集均已开源,为研究者提供了宝贵的资源,标志着奖励模型在未来发展的重大进步。
客服热线请拨打
400-998-8033