近日,中国人民大学与字节跳动Seed团队展开深度合作,由高瓴人工智能学院李崇轩教授领导的研究团队联合字节跳动Seed团队的研究人员,成功将μP理论应用于大语言模型的训练中,并进一步扩展至Diffusion Transformers的训练过程。这一突破性进展有效提升了模型的训练效率和扩展能力,为大规模人工智能模型的发展提供了新的理论支持和技术路径。此次研究不仅推动了人工智能领域的创新发展,也体现了学术界与产业界的高效协同。
人民大学字节跳动李崇轩μP理论Diffusion Transformers
2025-06-27