华为诺亚实验室创新MoLE架构:端侧部署的未来之星
华为诺亚实验室在ICML 2025上推出了一种新型MoE架构——MoLE,专为端侧部署优化。该架构通过将专家输入转化为浅层嵌入标记,并以查找表替代传统矩阵运算,显著降低了推理阶段的显存消耗与传输延迟。实验表明,MoLE在保持与MoE相似性能的同时,在批量解码场景下展现出更优的推理延迟表现。
MoLE架构端侧部署推理延迟显存消耗批量解码
2025-05-07
华为诺亚实验室MoLE:引领端侧大模型架构革新
在ICML 2025 Spotlight会议上,华为诺亚实验室推出的端侧大模型架构MoLE,通过稀疏激活特性将内存搬运代价降低1000倍。基于Mixture-of-Experts(MoE)原理,MoLE仅在推理时激活每个token所需的一小部分专家,有效减少计算量。然而,尽管MoE优化显著,其参数规模仍大于同等性能的密集型模型,在显存受限的端侧部署中面临挑战。
端侧大模型MoLE架构稀疏激活显存优化推理计算
2025-05-07
AI热点
1
2025-05-09
开源新篇章:AI在虚拟世界的互动演进