在ICML 2025 Spotlight会议上,华为诺亚实验室推出的端侧大模型架构MoLE,通过稀疏激活特性将内存搬运代价降低1000倍。基于Mixture-of-Experts(MoE)原理,MoLE仅在推理时激活每个token所需的一小部分专家,有效减少计算量。然而,尽管MoE优化显著,其参数规模仍大于同等性能的密集型模型,在显存受限的端侧部署中面临挑战。
客服热线请拨打
400-998-8033