在BabyVision测试中,多个顶尖AI模型暴露了其在多模态理解上的局限性。研究发现,当视觉问题能够通过文字完整描述时,AI模型倾向于依赖语言推理而非真正的视觉识别能力来解答问题。这种现象揭示了当前AI系统普遍存在“语言捷径”问题——即模型将本应基于图像理解的任务转化为文本推理任务,从而掩盖了其在真实视觉感知上的不足。尽管这些AI模型在表面上展现出强大的“视觉”能力,实则依赖于训练数据中语言与图像的强关联,而非具备跨模态的深层理解。该发现对多模态AI的发展提出了警示:若不加强对真正视觉语义的理解,模型将难以实现从“描述”到“认知”的跨越。