随着Agentic Coding研究的深入,软件工程领域对大模型能力的评估范式正经历关键转型。普林斯顿大学发布的SWE-Bench基准,首次系统性引入真实世界代码库与可执行测试,推动学界与工业界形成共识:唯有基于实际开发场景的动态验证,方能有效衡量模型在Bug修复等核心任务上的工程能力。这一范式催生了SWE系列基准测试,显著提升了评估的信度与实用性,成为当前大模型代码能力评测的重要标尺。
客服热线请拨打
400-998-8033