近日,蚂蚁技术研究院与浙江大学联合发布了一项突破性研究成果——Rubicon-preview模型,并提出了一种全新的“基于评分标尺的强化学习(Rubric-based Reinforcement Learning)”范式。该方法仅使用5000多个样本,便使一个30B参数的模型在性能上显著超越了拥有671B参数的DeepSeek V3模型,为提升AI的主观创造力开辟了全新路径。这一研究不仅在技术层面实现了高效训练,也为人工智能领域的发展注入了新的活力。
Rubicon-preview模型强化学习AI创造力评分标尺参数超越
2025-08-25