在CVPR 2026会议上,学界指出当前大型多模态模型在STEM视觉任务中存在显著感知短板——尤其在解析复杂科学图像(如分子结构、电路图、天文影像)时准确率不足。研究者提出,强化代码能力或为突破瓶颈的关键路径。基于此理念,CodePercept模型应运而生:它将视觉理解与可执行代码生成深度耦合,支持对STEM图像的符号化建模与动态推理,标志着多模态大模型向“感知—理解—计算”闭环迈出实质性一步。
客服热线请拨打
400-998-8033