随着大语言模型(LLMs)在编程领域的广泛应用,其在提升开发效率和代码质量方面展现出巨大潜力。然而,数据污染和能力虚胖等问题也逐渐显现,成为制约其发展的关键挑战。针对这些问题,Meituan-M17团队提出了一套全新的AI编程评测标准——OIBench,旨在更精准地评估大模型的实际编程能力。尽管市场上有观点认为如DeepMind的AlphaCode等大模型已达到人类编程选手水平,但相关争议仍然存在,表明当前技术仍有较大提升空间。
客服热线请拨打
400-998-8033