在CVPR 2026上,研究团队联合推出3DThinker——首个具备三维意象思考能力的多模态大模型。区别于现有模型局限于纯文本或2D视觉推理,3DThinker能基于输入的几张场景图片,在内部构建并推理场景的三维几何结构,显著提升对空间布局、深度关系与隐含几何信息的理解能力。该工作标志着多模态AI从“看图说话”迈向“构图思维”的关键跃迁,为具身智能、机器人导航与沉浸式内容生成开辟新路径。
客服热线请拨打
400-998-8033