近日,OpenAI推出了一款名为“POLAR”的新型奖励模型,该模型采用对比学习的方法,通过计算模型输出与参考答案之间的“距离”,实现对生成内容的精准评分。这一技术突破显著降低了对大量人工标注数据的依赖,同时展现出优异的扩展性,使小规模模型在特定任务中能够超越比自身大数十倍的模型。POLAR的应用为人工智能评估系统提供了新的思路,也为内容生成领域带来了更高的效率和更广泛的适用性。
OpenAI在去年取得了一项突破性研究进展,开发出一种名为“POLAR”的新型奖励模型。该模型采用对比学习方法,通过计算模型输出与参考答案之间的“距离”来评估回复质量,并提供精确评分。POLAR模型的一大优势在于显著减少了对大量人工标注数据的依赖,同时展现出强大的Scaling Law特性,使小型模型也能在性能上超越规模大其数十倍的模型。
近日,上海人工智能实验室的邹易澄团队与复旦大学的桂韬团队合作,推出了一种名为POLAR(策略判别学习)的预训练奖励模型。这一创新成果标志着奖励模型领域迈入了预训练的新时代。POLAR模型通过实现与绝对偏好解耦,展现出高效扩展性和强大的泛化能力,其特性类似于大型语言模型。该模型的推出为大型模型的后训练带来了突破性进展,有望解决强化学习(RL)链路扩展中的最后一环问题,推动人工智能技术迈向更高层次的发展。