在大型语言模型(LLM)中,结构化稀疏性随模型深度增加而愈发显著,这一现象尚未得到统一的理论解释。研究表明,深层网络中神经元激活呈现高度选择性,导致信息处理路径趋于稀疏化。同时,特定注意力头逐渐演化为“检索头”,专注于从上下文中提取关键语义信息;部分网络层则发展为“检索层”,承担长期依赖与知识调用功能。这种功能特化可能源于深度带来的表征分层增强,使得高层语义抽象更依赖稀疏、高效的计算模式。模型深度不仅加剧了稀疏性,还促进了功能模块的分工,从而提升整体推理与记忆能力。深入理解该机制有助于优化模型架构设计与训练策略。