李飞飞在其最新长文中系统阐述了人工智能未来十年的核心方向——构建具备空间智能的机器。她指出,真正的空间智能需融合三大核心能力:具备故事讲述者般想象力的AI,实现创造性场景构建;拥有第一响应者般流畅性的AI,确保在动态环境中实时响应;以及具备科学级精确性的空间推理能力,以支持复杂的空间理解与决策。这三者共同构成空间智能世界模型的基础框架。李飞飞强调,空间智能不仅是技术进阶的关键,更是AI融入现实物理世界的必要条件,将在机器人、自动驾驶、元宇宙等领域发挥深远影响。
RewardMap是一种创新的多阶段强化学习框架,旨在通过细粒度视觉推理与稀疏奖励机制提升多模态大语言模型(MLLMs)在视觉理解与空间推理任务中的表现。该框架设计了一个真实的地图推理任务,结合难度感知的细粒度奖励信号和从简单到复杂的课程式训练策略,逐步增强模型对复杂视觉场景的理解能力。实验表明,RewardMap能有效缓解传统方法中因奖励稀疏导致的学习困难问题,显著提升模型在空间关系识别与路径推断等任务上的准确率。
DeepMind公司首次提出了一种名为“帧链”(Chain of Frames,简称CoF)的创新视频模型,该模型借鉴了语言模型中的链式思维(Chain of Thought, CoT)机制,通过逐帧生成视频内容,实现对时间和空间维度的连贯推理。CoF使视频模型具备类似符号逻辑的推理能力,能够在复杂动态场景中进行时间推理与空间推理,显著提升生成视频的逻辑性与一致性。这一突破为视频生成技术开辟了新的路径,推动人工智能在多模态任务中的深层理解与创造能力。
清华大学与北京航空航天大学的研究团队联合开发了一种名为BSC-Nav的新型类脑空间认知框架。该框架通过模拟生物大脑构建和维护空间记忆的机制,显著提升了智能体的空间感知能力。这种能力不仅限于导航,还包括空间推理以及完成复杂任务,例如制作早餐。这一突破为人工智能在智能导航和复杂任务处理领域提供了新的方向。
在清华大学举办的ICCV25会议上,密室逃脱游戏被用作评估人工智能的新场景。研究显示,AI在这一复杂任务中的通关率不足50%,暴露出其在空间推理和多步骤视觉决策方面的局限性。与会专家探讨了当前AI模型是否能够像人类一样,在需要高度逻辑性和创造力的环境中进行有效推理。
通过一个创新的三阶段训练框架,大模型成功实现了“边画边想”及“边看边画,边画边想”的能力,显著提升了其空间推理能力。在五个基准测试中,该模型的平均性能提高了18.4%,达到了空间推理任务的新最佳水平(SOTA)。这一突破为人工智能在艺术创作与空间思考领域的应用开辟了新路径。
Spatial-RAG技术通过融合空间数据库与大型语言模型(LLM)的优势,有效解决了复杂的空间推理问题。该技术采用稀疏与密集检索相结合的方式,能够快速从空间数据库中匹配用户查询所需的空间对象。同时,借助LLM强大的语义理解能力,对检索结果进行排序并生成最终答案。这一创新技术在旅游规划、附近推荐等领域展现出广阔的应用前景。
Spatial-RAG技术通过融合空间数据库与大型语言模型(LLM)的优势,解决了复杂的空间推理问题。该技术采用稀疏与密集检索相结合的方式,高效检索符合用户查询的空间对象,并借助LLM的语义理解能力对结果进行排序与答案生成。这一创新方法在旅游规划、附近推荐等领域展现出巨大潜力,为用户提供精准且智能化的服务。
西北大学计算机系的研究人员潘震宇及其导师刘晗提出了一项创新性研究:通过规则驱动的强化学习策略,赋予视觉语言模型空间推理能力。为此,他们开发了名为MetaSpatial的3D空间推理框架,该框架旨在解锁与空间智能相关的50条数据,为人工智能领域注入新动力。
在处理空间推理任务时,大型语言模型(LLMs)面临诸多挑战。这类任务要求模型不仅掌握复杂的空间关系,还需整合地理数据和语义信息以生成精确回答。为解决这一问题,研究人员开发了Spatial Retrieval-Augmented Generation(Spatial-RAG)框架。该框架通过增强模型对空间数据的理解与应用能力,显著提升了LLMs在空间推理任务中的表现,成为这一领域的创新解决方案。
李飞飞和谢赛宁的最新研究作品《空间推理》揭示了多模态大型人工智能模型在空间认知能力上的局限性。尽管这些模型技术先进,但其空间推理表现与人类相比仍有较大差距。研究表明,在测试中约71%的错误源于空间推理能力不足。因此,提升空间推理能力成为当前多模态大模型性能突破的关键瓶颈。




