随着大型预训练语言模型(LLM)在多个领域的广泛应用,如何在特定专业任务中高效优化模型性能成为关键挑战。传统指令微调方法成本高昂,为此,研究提出了一种新型语言模型优化方案——稀疏混合专家(SMoE)架构。该架构不仅提升了推理效率,还支持模型容量的灵活扩展。更重要的是,研究团队提出了一种更具成本效益的升级策略,即通过改造已有大型密集模型参数实现性能提升,从而避免从头开始训练SMoE架构所需的高昂资源投入。在ACL25会议上的实验表明,一个8B规模的模型通过该方法进行微调后,其表现已超越全微调的基线模型,展示了该方法在资源节约和性能提升方面的显著优势。