随着大型语言模型在多个领域的广泛应用,其在土木工程领域的应用也逐渐受到关注。近期,首个针对“打灰人”任务的评估基准——DrafterBench被提出,专门用于测试大模型在修改土木工程图纸任务中的表现。该基准通过模拟实际工程指令,评估模型在结构化数据理解、工具使用、指令执行和批判性推理方面的能力。研究结果显示,尽管当前主流的大模型在一定程度上具备处理工程图纸相关任务的能力,但在复杂性和准确性方面仍难以满足工程现场的实际需求。这一发现为未来大模型在土木工程领域的优化方向提供了重要参考。
大模型应用土木工程DrafterBench图纸修改工程指令
2025-07-18