技术博客

伯克利与Meta联手,开创具身智能未来预测新篇章

近年来,人工智能领域对具身智能的研究持续升温。伯克利与Meta展开合作,致力于探索一种能够通过全身动作预测未来的人工智能世界模型。这项研究的核心在于解决一个基础但关键的问题:智能体在现实世界中行动、规划和与环境互动时,需要构建怎样的世界模型?通过模拟身体与环境的交互,研究人员希望人工智能不仅能理解语言或图像,还能掌握物理世界的动态规律,从而实现更高效的决策和行为规划。这一突破或将推动人工智能从被动感知迈向主动探索的新阶段。

具身智能世界模型人工智能动作预测环境互动
2025-07-03
构建未来:伯克利与Meta联手打造具身智能的世界模型

近日,加州大学伯克利分校与Meta联合宣布,他们正在共同开发一种面向具身智能的世界模型,旨在让人工智能通过全身动作预测未来,从而更好地进行现实世界的行动、规划和环境互动。这一研究的核心在于探索智能体如何构建对复杂环境的动态理解,并基于这种理解做出高效决策。对于具身智能而言,世界模型不仅需要捕捉环境的物理规则,还需模拟多感官输入与动作输出之间的因果关系。这项技术突破有望为AI在机器人、自动驾驶及虚拟助手等领域的应用提供全新思路。

世界模型具身智能动作预测AI规划环境互动
2025-07-03
BridgeVLA模型:引领3D视觉学习新篇章

由中国科学院自动化研究所提出的BridgeVLA模型,是一种创新的3D视觉学习算法。该模型通过将三维输入转换为二维图像,并结合二维热图进行动作预测,实现了高效的三维机器人操作学习。BridgeVLA在仿真环境和真实世界场景中均显示出卓越的性能和数据效率。仅需要三条轨迹信息,BridgeVLA就能在基础任务中达到96.8%的成功率,相较于传统方法,性能提升了32%。

BridgeVLA模型3D视觉学习机器人操作数据效率动作预测
2025-06-27
BridgeVLA:引领3D视觉语言模型新篇章

中国科学院自动化研究所近日在计算机视觉领域取得重要突破,提出了一种名为BridgeVLA的创新性3D视觉语言模型,并在CVPR竞赛中荣获冠军。该模型通过将三维输入转换为二维图像,并结合二维热图进行动作预测,显著提升了3D机器人操作学习的效率与泛化能力。实验结果显示,BridgeVLA在真实机器人上的性能提升了32%,为机器人视觉操作领域带来了新的技术突破。

BridgeVLA3D视觉模型机器人操作动作预测CVPR竞赛
2025-06-26
探索vivo DeepSeek R1算法:强化学习在GUI动作预测中的突破

vivo公司开源的DeepSeek R1算法是一种基于规则的强化学习方法,旨在以更高效的方式替代传统的监督式学习。该算法在样本数量有限的情况下表现出色,能够显著提升模型在特定任务中的表现。通过优化图形用户界面(GUI)智能体的动作预测能力,DeepSeek R1实现了对用户界面交互行为的精准预测,为相关领域提供了新的解决方案。

DeepSeek R1强化学习图形用户界面动作预测样本有限
2025-04-09
vivo携手香港中文大学研究团队:强化学习技术在GUI智能体动作预测中的应用

vivo与香港中文大学研究团队合作,首次将DeepSeek R1式的强化学习技术应用于图形用户界面(GUI)智能体领域。通过引入基于规则的强化学习(RL),显著提升了GUI智能体动作预测的准确性。这一创新技术为智能体的动作预测提供了更高效、精准的解决方案,标志着该领域的重要突破。

vivo合作强化学习GUI智能体动作预测准确性提升
2025-04-09
斯坦福大学UMI项目中的Diffusion Policy:机器人动作预测新算法

斯坦福大学UMI项目采用Diffusion Policy进行动作预测。该策略基于扩散模型,通过条件去噪扩散过程生成机器人行为。具体而言,Diffusion Policy不直接输出动作,而是通过推断视觉观察的动作-评分梯度,并经K次去噪迭代生成行为。此方法分为三部分:显式策略、隐式策略和条件去噪扩散过程。显式策略涵盖不同动作表示;隐式策略学习能量函数并优化动作;条件去噪扩散过程则在机器人行动空间上生成行为。

Diffusion Policy动作预测去噪扩散视觉运动机器人行为
2025-01-21