斯坦福大学Percy Liang团队的最新研究表明,在众多声称能够显著提升训练速度(1.4至2倍)的优化器中,AdamW因其出色的稳定性成为预训练模型的首选。然而,研究同时指出,在特定的数据与模型规模比例下,基于矩阵的优化方法展现出了明显的优势。这一发现为优化器的选择提供了新的视角,也为未来模型训练效率的提升开辟了更多可能性。
客服热线请拨打
400-998-8033