华为盘古团队开发了Pangu Ultra MoE架构,该架构无需依赖GPU即可训练接近万亿参数规模的大型模型。通过提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构与TinyInit小初始化方法,成功在昇腾NPU上实现了超过10T token数据的长期稳定训练。这一突破为大规模模型训练提供了新思路,显著降低了对传统硬件的依赖。
客服热线请拨打
400-998-8033