近期研究提出一种新型激活层——Derf(Dynamic erf),显著提升了无归一化Transformer模型的训练稳定性。该设计摒弃了传统LayerNorm,通过动态调节erf函数参数,自适应地建模输入分布变化,使模型在不依赖任何归一化层的前提下仍能收敛可靠。实验表明,Derf在多项基准任务中性能超越标准带LayerNorm的Transformer,验证了其泛化性与有效性。这一突破为轻量化、高鲁棒性的序列建模提供了新路径。
Derf激活层无归一化Transformer动态erf稳定训练
2026-01-24