当前视觉语言模型(VLM)正逐步将深度信息纳入核心输入,以突破机器人对物理世界的浅层感知局限。传统方法虽能识别“杯子”等物体类别,却难以精准判断其空间方向、相对距离及最优抓取点。通过融合深度传感与多模态对齐技术,VLM得以构建具备方向感知能力的物理理解框架,显著提升机器人在真实场景中的操作鲁棒性与泛化能力。
客服热线请拨打
400-998-8033