Code2Bench并非传统意义上的静态基准测试,而是一个持续演进的代码语言模型评估框架。其核心理念在于实现“双重扩展”,即在任务维度与能力维度同步拓展评估边界:一方面超越标准编程题复现,转向对未知工程问题的建模、分解与求解;另一方面推动评估从语法正确性、功能实现,延伸至系统设计、权衡决策与协作适配等真实工程能力。该框架标志着代码语言模型评测正从“能否写对”迈向“能否做成”。
客服热线请拨打
400-998-8033