来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究团队发现,大型语言模型(LLM)在预训练过程中可能出现“灾难性过度训练”现象。研究表明,随着预训练使用的token数量增加,模型调整难度加大,可能导致性能下降,这一发现挑战了传统认知。
客服热线请拨打
400-998-8033