技术博客

深度学习之美：深度网络的逐层抽象能力解析

深度神经网络通过逐层抽象机制，能够有效学习复杂数据中的高层次特征表示，显著增强模型的表达能力。增加网络深度通常可提升性能，但在实际训练中面临梯度消失、过拟合及计算效率下降等挑战。为确保训练稳定性，现代深度网络广泛采用残差连接以缓解梯度传播问题，结合批量归一化加速收敛，并通过正则化技术抑制过拟合。在图像识别、自然语言处理等复杂任务中，深度网络凭借其强大的分层特征提取能力展现出优越性能，成为当前主流的模型架构。

深度网络特征表示梯度消失残差连接过拟合

2025-10-14

MUDDFormer架构：深度Transformer模型残差连接的革新之路

在ICML 2025会议上，cai云科技与北京邮电大学联合提出了一种创新架构MUDDFormer，旨在解决深度Transformer大型语言模型（LLMs）中残差连接的局限性问题。这种局限性影响了信息在模型不同层之间的有效传递。MUDDFormer通过引入多路动态稠密连接（MUDD connection），显著提升了Transformer模型在跨层信息传递方面的效率。

MUDDFormer残差连接信息传递Transformer动态稠密

2025-07-03

大型语言模型的核心机制解析

大型语言模型的核心机制依赖于Transformer架构，该架构通过嵌入层将输入数据转换为向量形式，并结合位置编码以保留序列中单词的顺序信息。随后，这些向量进入多头自注意力层，能够同时关注输入序列的不同部分。自注意力层的输出经过残差连接和层归一化处理，以增强模型的学习能力和稳定性。接着，数据流经前馈网络进一步处理，最终再次通过残差连接和层归一化，得到编码器层的输出。模型性能高度依赖大规模和高质量的数据训练，数据的质量和规模是影响模型表现的关键因素。

语言模型Transformer自注意力残差连接数据质量

2025-02-13

超连接技术：深度学习模型的新突破

字节跳动的豆包大模型团队近期提出了一种名为超连接（Hyper-Connections）的新技术。该技术是一种改进的残差连接方法，通过动态调整网络中不同层之间的连接权重，有效解决了梯度消失和表示崩溃的问题。在Dense模型和MoE模型的预训练过程中，超连接技术显示出了卓越的性能，能够将模型的收敛速度提高最多80%。

超连接残差连接梯度消失模型收敛豆包大模型

2024-11-07

AI热点

2025-11-09

OmniVinci：NVIDIA的多模态研究模型引领技术革新

科技热点

OmniVinci：NVIDIA的多模态研究模型引领技术革新