BridgeVLA:引领3D视觉语言模型新篇章
中国科学院自动化研究所近日在计算机视觉领域取得重要突破,提出了一种名为BridgeVLA的创新性3D视觉语言模型,并在CVPR竞赛中荣获冠军。该模型通过将三维输入转换为二维图像,并结合二维热图进行动作预测,显著提升了3D机器人操作学习的效率与泛化能力。实验结果显示,BridgeVLA在真实机器人上的性能提升了32%,为机器人视觉操作领域带来了新的技术突破。
BridgeVLA3D视觉模型机器人操作动作预测CVPR竞赛
2025-06-26
创新突破:BridgeVLA技术引领3D视觉语言模型新篇章
中国科学院自动化研究所的谭铁牛团队与字节跳动的Seed部门合作,推出了一项名为BridgeVLA的创新技术。该技术开创了3D视觉语言模型(VLA)的新范式,不仅显著提升了模型性能,还优化了数据处理效率。BridgeVLA在CVPR 2025的GRAIL workshop上荣获COLOSSEUM Challenge冠军,充分展现了其卓越的技术实力。目前,BridgeVLA的代码及相关数据已向公众开放,可供研究和应用。
BridgeVLA3D视觉模型谭铁牛团队COLOSSEUM冠军开放代码
2025-06-24
开启3D视觉新纪元:VGGT模型的突破与创新
Meta与牛津大学合作推出了VGGT模型,这是一种基于Transformer的3D视觉模型。VGGT通过一次前向推理即可完成相机参数、深度图、点云及3D轨迹的预测,开创了3D基础模型的新时代,为3D视觉领域提供了高效的处理方式。
3D视觉模型VGGT模型Transformer深度图预测3D轨迹分析
2025-03-31
AI热点
1
2025-11-14
多租户云环境下IO瓶颈智能诊断的挑战与对策



