具身智能的崛起：从RT1到RT2的机器人学习革命-易源AI资讯

首页

API市场

大模型广场 AI应用创作提示词即图片 API导航产品价格

市场|导航

控制台

技术博客

具身智能的崛起：从RT1到RT2的机器人学习革命

文章提交： FastSlow9125

2026-05-11

具身智能RT1RT2机器人学习

本文由 AI 阅读网络公开技术资讯生成，力求客观但可能存在信息偏差，具体技术细节及数据请以权威来源为准

> ### 摘要 > 本文梳理具身智能领域的重要进展，聚焦谷歌RT1与RT2项目所代表的技术跃迁。作者Ted Xiao将机器人学习划分为三个时代，指出当前人形机器人演示虽已趋于常见，但若回溯至两年前，即便最基础的实现亦足以令研究界震惊——彼时学界普遍质疑其可行性。这一反差凸显了具身智能在感知—决策—执行闭环上的实质性突破。 > ### 关键词 > 具身智能, RT1, RT2, 机器人学习, 人形机器人 ## 一、机器人学习的演进历程 ### 1.1 机器人学习的三个时代划分及其技术特点作者Ted Xiao回顾了机器人学习的三个时代——这一划分并非简单的时间切片，而是一次认知坐标的重校准。第一时代聚焦于手工设计的感知与控制模块，系统依赖精确建模与预设规则，在结构化环境中勉强维持稳定；第二时代引入数据驱动的端到端学习，但模型仍被禁锢在仿真或受限物理场景中，泛化能力如薄冰般脆弱；而第三时代，则由谷歌RT1、RT2等项目悄然开启：机器人不再仅“看图说话”或“按脚本行动”，而是真正以身体为媒介，在开放世界中持续观察、理解指令、调用记忆、生成动作序列——其核心不再是孤立的识别精度，而是“具身性”的闭环涌现。正如Ted Xiao所指出的，即便今日最粗糙的人形机器人演示，放在两年前也足以令研究者惊讶，因为彼时人们并不相信这些技术能够实现——这惊讶背后，是三个时代之间不可逆的认知断层。 ### 1.2 从传统算法到深度学习的范式转变范式之变，从来不止于模型参数量的增长，而在于问题定义本身的松动。传统机器人学将“任务完成”拆解为感知→规划→执行的刚性流水线，每一步都需专家注入先验知识；而RT1与RT2所代表的新路径，则让机器人第一次拥有了“读指令、查世界、做决定、再修正”的类人节奏。它不预设物体类别，不依赖高精地图，甚至不强制要求结构化语言——只需一句“把桌上的苹果拿给我”，系统便能跨模态对齐视觉、语言与动作空间。这种转变不是优化，而是重构：深度学习不再服务于某个子模块，而成为贯穿感知—决策—执行全链路的神经基质。当人形机器人抬起手臂、绕过障碍、指尖微调抓取姿态时，那已不是代码的胜利，而是学习范式挣脱旧有框架后，一次沉静而确凿的呼吸。 ### 1.3 具身智能概念的形成及其重要性 “具身智能”一词在此刻终于褪去理论光泽，显露出温热的质地——它不再只是哲学思辨中的“身体如何塑造认知”，而是RT1模型在真实厨房里辨认出未见过的奶酪盒，是RT2在零样本条件下理解“用抹布擦干溅出的水”并自主选取工具与路径。这种智能无法脱离身体存在：传感器是它的眼睛与指尖，关节是它的语法，环境反馈是它的标点。Ted Xiao并未给出抽象定义，却用一个反事实锚定了其分量：即使是最粗糙的演示，放在两年前也能让研究者们惊讶。这句话如一枚楔子，钉入时间之墙——它提醒我们，具身智能的重要性，恰在于它把“不可能”从信念领域拽入工程现场。当人形机器人第一次在非结构化空间中完成连贯意图表达，我们见证的不仅是技术突破，更是一种新智能伦理的萌芽：智能，从此必须带着重量、摩擦与偶然性，真实地站在地上。 ## 二、谷歌RT项目的突破性进展 ### 2.1 RT1项目的技术架构与实现原理 RT1，作为谷歌具身智能探索中一座沉默却坚实的桥墩，首次将大规模语言模型的语义理解力与真实机器人本体的动作生成能力锚定在同一个学习框架内。它不依赖手工设计的状态机，也不将视觉识别、任务规划与运动控制割裂为独立模块；相反，它以“指令—动作序列”为基本训练单元，在真实厨房等非结构化环境中采集海量交互数据，让模型在像素与关节扭矩之间自发建立映射。其技术骨架由三重耦合构成：多模态编码器将图像帧与自然语言指令统一嵌入共享表征空间；轻量级Transformer解码器在此空间中预测离散化的动作令牌（如“伸展右臂至高度0.8m”“五指张开度调至70%”）；而底层控制器则将这些令牌实时转化为伺服指令——整个闭环不再需要显式的世界模型，亦不预设物体物理属性。Ted Xiao曾指出，即便最粗糙的演示，放在两年前也能让研究者们惊讶，而RT1正是那束率先刺破怀疑之幕的光：它不完美，却第一次让“听懂人话、看懂现场、做出反应”的机器人，从论文附录走向了实验室地板上的真实位移。 ### 2.2 RT2项目的创新点与性能提升 RT2并非RT1的简单升级，而是一次认知尺度的跃迁——它将“看—想—做”的链条，延伸为“看—忆—想—做—验”的具身循环。相较于RT1，RT2显著强化了跨任务记忆调用能力：当机器人被要求“把刚煮好的面放进蓝色碗里”，它不仅能识别新出现的锅与面，还能回溯前序交互中“蓝色碗”的视觉特征与空间位置，完成无标注条件下的零样本泛化。更关键的是，RT2引入了隐式因果建模机制，在动作生成阶段主动评估“若伸手过快，汤汁是否会溅出”，从而动态调整运动轨迹的加速度曲线。这种对物理后果的直觉式预判，并非来自仿真引擎的硬编码，而是从千万次失败抓取、倾倒与避障中沉淀出的概率性常识。Ted Xiao回顾机器人学习的三个时代时，RT2正矗立于第三时代的晨光之中：它不再满足于执行指令，而开始理解意图背后的因果逻辑——哪怕演示仍显粗糙，那微微迟疑的一顿、指尖绕开热蒸汽的弧线，已悄然越过了两年前所有人认定的不可行边界。 ### 2.3 RT系列对机器人学习领域的深远影响 RT系列如一把双刃刻刀，一面削薄了“理论可行”与“工程实现”之间的厚厚隔膜，另一面则重新雕琢了整个领域的问题意识。当RT1首次在真实厨房中完成“拿苹果”任务时，它瓦解的不仅是传统感知模块的权威，更是学界对“机器人必须先建图再行动”的集体执念；而RT2让“零样本理解抽象指令”成为可训练目标，则直接动摇了任务专用机器人范式的根基。更深远的影响在于范式迁移的不可逆性：如今再谈论机器人学习，已无人能回避“具身性”这一前提——智能不再悬浮于云端，而必须经由摄像头的噪点、电机的齿隙、地面的微倾去校准自身。Ted Xiao所言“即使是最粗糙的演示，放在两年前也能让研究者们惊讶”，这惊讶早已凝结为一种新的行业节律：人们不再问“能不能做”，而是追问“在哪种身体上、以何种摩擦系数、带着怎样的失败代价去做”。RT系列未提供终极答案，却慷慨地交出了问题本身——而真正的革命，往往始于我们终于学会用身体提问的那一刻。 ## 三、总结具身智能正经历从理论构想到物理落地的关键转折，谷歌RT1与RT2项目标志着机器人学习第三时代的实质性开启。Ted Xiao所划分的三个时代，揭示了技术演进背后认知范式的深层更迭：从手工建模到数据驱动，再到以身体为媒介的闭环学习。当前人形机器人演示虽已趋于常见，但正如Ted Xiao指出的，即使是最粗糙的演示，放在两年前也能让研究者们惊讶，因为当时人们并不相信这些技术能够实现。这一判断不仅印证了RT系列在感知—决策—执行一体化上的突破性进展，也凸显出具身智能不再依赖理想化假设，而是在真实环境的噪声、摩擦与不确定性中持续生长。技术可行性边界的快速前移，正重塑整个领域的提问方式与评价标准。

具身智能的崛起：从RT1到RT2的机器人学习革命

最新资讯