微软公司推出了一款名为SWE-bench-Live的代码修复评测基准工具。该工具通过自动化构建代码运行环境,结合实时更新功能,有效解决了过拟合与数据污染问题,显著提升了模型评估的准确性和时效性。此外,SWE-bench-Live创新性地引入GitHub上的最新Issue,突破了传统静态评测基准的限制,实现了全自动化的运行环境构建与持续更新,为代码修复领域带来了革命性的进步。
客服热线请拨打
400-998-8033