腾讯与普林斯顿大学联合研究团队揭示了一项重大发现:广泛用于评估人工智能(AI)答案质量的大型语言模型存在显著的系统性缺陷。这些模型通常被称为“AI裁判”,其设计目的是通过对比生成答案与标准答案来评估AI输出的质量。然而,研究显示,这些“AI裁判”容易受到简单策略的欺骗,从而导致评估结果失真。这一发现突显了当前AI评估方法的局限性,并对依赖此类评估机制的应用提出了质疑。研究团队希望借此引发对AI评估体系改进的深入探讨,以推动更可靠和公正的AI发展路径。
AI裁判缺陷语言模型漏洞答案评估欺骗AI评估局限模型对比失效
2025-07-18