在一篇68页的论文中,研究团队对大型模型性能进行了深入分析。特别是在Llama4模型发布前,团队私下进行了27次测试,却仅展示最佳成绩,这一做法引发了公众对大模型竞技场数据可信度的广泛质疑。此事件再次推动了关于大模型领域可靠性的讨论,强调了透明性和公正性的重要性。
客服热线请拨打
400-998-8033