在ICML 2025会议上,cai云科技与北京邮电大学联合提出了一种创新架构MUDDFormer,旨在解决深度Transformer大型语言模型(LLMs)中残差连接的局限性问题。这种局限性影响了信息在模型不同层之间的有效传递。MUDDFormer通过引入多路动态稠密连接(MUDD connection),显著提升了Transformer模型在跨层信息传递方面的效率。
客服热线请拨打
400-998-8033