在数学代码领域的突破性研究中,团队成功复现了DeepSeek-R1-Zero的能力,并通过SRPO工作显著提升了训练效率。与DeepSeek-R1-Zero-Qwen-32B相比,此次复现仅需其十分之一的训练步数,为相关领域提供了高效可行的技术路径。这一成果标志着数学与代码处理技术的重大进步,具有广泛的应用前景。
客服热线请拨打
400-998-8033