近年来,人工智能领域对具身智能的研究持续升温。伯克利与Meta展开合作,致力于探索一种能够通过全身动作预测未来的人工智能世界模型。这项研究的核心在于解决一个基础但关键的问题:智能体在现实世界中行动、规划和与环境互动时,需要构建怎样的世界模型?通过模拟身体与环境的交互,研究人员希望人工智能不仅能理解语言或图像,还能掌握物理世界的动态规律,从而实现更高效的决策和行为规划。这一突破或将推动人工智能从被动感知迈向主动探索的新阶段。
近日,加州大学伯克利分校与Meta联合宣布,他们正在共同开发一种面向具身智能的世界模型,旨在让人工智能通过全身动作预测未来,从而更好地进行现实世界的行动、规划和环境互动。这一研究的核心在于探索智能体如何构建对复杂环境的动态理解,并基于这种理解做出高效决策。对于具身智能而言,世界模型不仅需要捕捉环境的物理规则,还需模拟多感官输入与动作输出之间的因果关系。这项技术突破有望为AI在机器人、自动驾驶及虚拟助手等领域的应用提供全新思路。
由中国科学院自动化研究所提出的BridgeVLA模型,是一种创新的3D视觉学习算法。该模型通过将三维输入转换为二维图像,并结合二维热图进行动作预测,实现了高效的三维机器人操作学习。BridgeVLA在仿真环境和真实世界场景中均显示出卓越的性能和数据效率。仅需要三条轨迹信息,BridgeVLA就能在基础任务中达到96.8%的成功率,相较于传统方法,性能提升了32%。
中国科学院自动化研究所近日在计算机视觉领域取得重要突破,提出了一种名为BridgeVLA的创新性3D视觉语言模型,并在CVPR竞赛中荣获冠军。该模型通过将三维输入转换为二维图像,并结合二维热图进行动作预测,显著提升了3D机器人操作学习的效率与泛化能力。实验结果显示,BridgeVLA在真实机器人上的性能提升了32%,为机器人视觉操作领域带来了新的技术突破。
vivo公司开源的DeepSeek R1算法是一种基于规则的强化学习方法,旨在以更高效的方式替代传统的监督式学习。该算法在样本数量有限的情况下表现出色,能够显著提升模型在特定任务中的表现。通过优化图形用户界面(GUI)智能体的动作预测能力,DeepSeek R1实现了对用户界面交互行为的精准预测,为相关领域提供了新的解决方案。
vivo与香港中文大学研究团队合作,首次将DeepSeek R1式的强化学习技术应用于图形用户界面(GUI)智能体领域。通过引入基于规则的强化学习(RL),显著提升了GUI智能体动作预测的准确性。这一创新技术为智能体的动作预测提供了更高效、精准的解决方案,标志着该领域的重要突破。
斯坦福大学UMI项目采用Diffusion Policy进行动作预测。该策略基于扩散模型,通过条件去噪扩散过程生成机器人行为。具体而言,Diffusion Policy不直接输出动作,而是通过推断视觉观察的动作-评分梯度,并经K次去噪迭代生成行为。此方法分为三部分:显式策略、隐式策略和条件去噪扩散过程。显式策略涵盖不同动作表示;隐式策略学习能量函数并优化动作;条件去噪扩散过程则在机器人行动空间上生成行为。




