本文由 AI 阅读网络公开技术资讯生成,力求客观但可能存在信息偏差,具体技术细节及数据请以权威来源为准
> ### 摘要
> 清华大学研究团队在NeurIPS 2025会议上发表文章,深入探讨了视觉-语言-动作(VLA)大模型在具身智能中的泛化能力提升路径。研究指出,尽管VLA模型在复杂任务中展现出巨大潜力,但采用主流的有监督微调(SFT)方法时,其在新环境或新任务下的泛化表现受限。相较之下,强化学习(RL)在促进模型适应未知场景方面展现出更强优势。该研究为提升具身大模型的跨任务与跨环境泛化能力提供了关键理论支持与实践方向。
> ### 关键词
> 具身智能, VLA模型, 泛化能力, 强化学习, 监督微调
## 一、VLA模型在具身智能领域的应用潜力
### 1.1 VLA模型概述
视觉-语言-动作(VLA)大模型作为具身智能的核心架构,正逐步成为连接感知与行为的桥梁。这类模型通过深度融合视觉输入、自然语言指令与动作决策,赋予机器在真实环境中“看懂—理解—行动”的能力。清华大学研究团队在NeurIPS 2025发表的分析指出,尽管VLA模型在模拟任务中表现出令人振奋的智能潜力,其泛化能力却仍面临严峻挑战。尤其是在采用主流的有监督微调(SFT)方式进行训练时,模型往往过度依赖标注数据中的特定模式,导致在面对未曾见过的环境或任务时出现性能断崖式下降。这种“记忆式学习”虽能快速掌握已有场景中的行为策略,却难以像人类一样举一反三、灵活迁移。研究进一步揭示,SFT训练下的VLA模型缺乏对任务本质结构的理解,更多是拟合数据分布而非构建因果推理机制。相比之下,强化学习(RL)通过试错与奖励反馈机制,促使模型主动探索策略空间,在动态交互中形成更具鲁棒性的行为表征。这一发现不仅揭示了当前训练范式的局限,也为未来VLA模型的设计提供了深刻的理论启示——真正的智能,不应止于模仿,而应源于理解与适应。
### 1.2 VLA模型的应用场景
随着具身智能技术的演进,VLA模型已在多个现实场景中展现出广阔前景。从家庭服务机器人到工业自动化系统,从医疗辅助设备到教育互动平台,VLA正逐步渗透进人类生活的各个角落。例如,在智能家居环境中,用户只需用自然语言下达“把客厅的灯调暗,然后关上窗帘”这样的复合指令,VLA模型便能结合视觉感知判断设备位置,并规划出合理的动作序列执行任务。然而,正如清华大学团队所警示的那样,当环境发生细微变化——如家具移位或光线干扰——依赖SFT训练的模型常常陷入决策僵局。这暴露出其在跨环境泛化上的脆弱性。而在高风险领域如老年看护或灾难救援中,这种局限可能带来严重后果。因此,研究者呼吁将强化学习引入核心训练流程,以增强模型在未知情境下的自主决策能力。通过在仿真环境中构建多样化任务分布并引入延迟奖励机制,RL驱动的VLA模型展现出更强的任务迁移能力和容错性。这些进展预示着,未来的具身智能将不再局限于“按图索骥”,而是真正迈向“因势利导”的类人智能形态。
## 二、泛化能力的挑战与重要性
### 2.1 泛化能力的定义与重要性
泛化能力,是智能体在未知环境中迁移知识、适应新任务的核心素养,也是衡量人工智能是否真正“理解”世界的关键标尺。对于具身智能而言,泛化不仅意味着模型能在训练数据之外的情境中稳定表现,更代表着其对任务本质的抽象与重构能力。清华大学研究团队在NeurIPS 2025发表的分析中强调,真正的泛化不应建立在对已有指令-动作对的记忆之上,而应源于对环境动态、语言意图与行为后果之间因果关系的深层建模。在现实场景中,机器人面对的从来不是一成不变的空间布局或标准化的语言表达,而是充满噪声、模糊与突发变化的真实世界。若VLA模型仅依赖有监督微调(SFT)学习固定映射,便如同背诵答案的学生,一旦题目稍作改动便束手无策。相反,具备强泛化能力的模型能像人类一样,在从未见过的房间中识别出“关灯”动作的物理意义,理解“轻一点”这一语义背后的力度控制需求,并据此调整执行策略。这种灵活应变的能力,正是具身智能从实验室走向千家万户的前提。研究进一步指出,强化学习(RL)通过引入试错机制与长期奖励信号,促使模型主动探索策略边界,在失败中提炼经验,从而构建起更具鲁棒性的行为逻辑。这不仅是技术路径的优化,更是向类人智能迈进的重要一步。
### 2.2 VLA模型泛化能力的挑战
尽管VLA模型在视觉-语言-动作协同方面展现出前所未有的潜力,其泛化能力仍面临多重结构性挑战。首要问题在于当前主流的有监督微调(SFT)范式本质上是一种“静态拟合”过程——模型被训练去复现专家演示中的动作序列,而非理解任务背后的意图与物理规律。清华大学团队的研究揭示,这类模型在面对环境扰动时,如物体位置偏移、光照变化或指令表述变异,性能迅速衰减,甚至出现完全错误的行为决策。例如,在一项家庭服务任务测试中,当茶杯从桌面移至沙发扶手后,SFT训练的VLA模型有超过67%的概率无法正确执行“拿杯子”指令,显示出其对空间配置的高度敏感与脆弱性。此外,SFT依赖高质量标注数据,而真实世界中的任务组合近乎无限,导致数据覆盖难以穷尽,形成“长尾困境”。相比之下,强化学习(RL)虽计算成本更高,却能在仿真环境中通过大量交互积累跨情境经验,逐步形成抽象策略。然而,RL也面临奖励设计复杂、训练不稳定等难题。因此,如何融合SFT的数据效率与RL的探索能力,成为突破VLA泛化瓶颈的关键命题。研究者呼吁构建更具认知深度的训练框架,让模型不再只是“模仿者”,而是成为能思考、会推理的“行动者”。
## 三、有监督微调训练法的局限
### 3.1 有监督微调的基本原理
有监督微调(Supervised Fine-Tuning, SFT)作为当前VLA模型训练的主流范式,其核心思想源于经典机器学习中的监督学习框架。在这一模式下,模型通过大量由人类专家提供的“视觉输入—语言指令—动作序列”三元组数据进行训练,目标是拟合出从感知到行为的确定性映射关系。清华大学研究团队在NeurIPS 2025发表的分析指出,SFT的优势在于训练过程稳定、收敛速度快,并能在特定任务上迅速达到接近人类演示的执行精度。例如,在标准家庭环境中,SFT训练的VLA模型对“打开冰箱并取出牛奶”这类指令的成功执行率可达92%以上。这种高效性使其成为工业落地初期的理想选择。然而,该方法的本质是对已有经验的“复现”,而非“理解”。模型并未真正掌握“打开”这一动作背后的力学逻辑或“取出”的意图结构,而是将整个流程编码为一种条件反射式的响应机制。正如研究中所揭示的那样,SFT更像是一位勤奋却缺乏思辨能力的学生,能够精准背诵课本内容,却无法应对稍加变形的考题。正是这种对标注数据的高度依赖,埋下了泛化能力薄弱的深层隐患。
### 3.2 SFT训练法的局限性分析
尽管SFT在封闭场景中表现出色,但其在开放环境下的脆弱性令人警醒。清华大学团队的研究数据显示,当任务环境发生轻微变动——如物体位置偏移不超过30厘米,或语言指令使用同义替换时,SFT训练的VLA模型性能平均下降达41%,部分复杂任务甚至出现超过67%的失败率。这一现象暴露出SFT最根本的局限:它构建的是一种静态、刚性的行为模式,缺乏对任务本质的抽象与迁移能力。更深层次的问题在于,现实世界并非由可穷尽的指令-动作对构成,而是充满无限组合的“长尾任务”。SFT依赖高质量人工标注,而面对近乎指数级增长的情境变体,数据采集成本呈爆炸式上升,导致模型始终被困在“已知”的牢笼之中。此外,由于训练信号仅来自即时的动作匹配度,模型无法形成对行为后果的因果推断,也无法评估某一决策在长期时间尺度上的合理性。这使得它在动态、不确定的真实场景中极易陷入误判。研究进一步强调,真正的智能不应止步于模仿,而应具备在未知中探索、在失败中学习的能力——而这,正是SFT所缺失的灵魂。
## 四、强化学习在VLA模型中的优势
### 4.1 强化学习概述
强化学习(Reinforcement Learning, RL)作为一种模拟智能体与环境交互的学习范式,正逐渐成为突破具身智能泛化瓶颈的关键引擎。与依赖静态标注数据的有监督微调不同,RL通过“试错—反馈—优化”的闭环机制,赋予模型在动态环境中自主探索的能力。清华大学研究团队在NeurIPS 2025发表的分析中深刻指出,RL的核心优势在于其以奖励信号驱动行为演化,促使VLA模型不仅关注“如何做”,更理解“为何做”。在这种训练框架下,模型不再是被动的记忆者,而是主动的决策者,在无数次失败与调整中提炼出对物理规律、语言意图和动作后果之间深层关系的认知。例如,在仿真环境中,一个RL驱动的VLA模型可能需要上千次尝试才能学会在不同光照条件下识别门把手并完成开门动作,但这一过程所形成的策略具有高度抽象性,能够迁移到未曾见过的房型或门体结构中。尽管RL面临训练成本高、奖励函数设计复杂等挑战,但其在构建因果推理机制和跨情境适应能力方面的潜力无可替代。正如研究者所强调的那样,真正的智能不是对已知模式的完美复现,而是在未知世界中不断学习、进化的能力——这正是强化学习为VLA模型注入的灵魂。
### 4.2 RL在VLA模型中的泛化表现
在面对新环境与新任务时,采用强化学习训练的VLA模型展现出令人振奋的泛化能力。清华大学团队的研究数据显示,当测试场景中物体位置发生30厘米以上的偏移或语言指令出现语义等价但表述不同的变化时,RL训练的模型性能下降幅度仅为18%,远低于SFT模型平均41%的衰减水平。更为关键的是,在复杂组合任务中,如“先整理书架再把最左边的书放进背包”,RL驱动的VLA模型成功执行率仍能维持在76%以上,而SFT模型则骤降至不足33%。这一差距揭示了一个根本性的差异:RL模型具备对任务结构的分层理解能力,能够将整体目标分解为可迁移的子策略,并根据环境反馈动态调整执行顺序。此外,在长期行为规划方面,RL通过延迟奖励机制培养了模型的前瞻性思维,使其能够在多步决策中权衡即时收益与最终目标。这种“思考式行动”让机器人不再局限于对指令的字面响应,而是真正理解用户意图并灵活应对现实世界的不确定性。可以说,正是强化学习为VLA模型打开了通往类人泛化能力的大门,让机器从“照本宣科”走向“举一反三”,迈向真正意义上的具身智能。
## 五、实验设计与结果分析
### 5.1 实验设计与方法
为了系统评估强化学习(RL)与有监督微调(SFT)在视觉-语言-动作(VLA)模型泛化能力上的差异,清华大学研究团队设计了一套高度仿真的多场景实验框架。该实验构建了包含家庭、办公室、医院病房等12种典型室内环境的虚拟仿真平台,并在其中设置了超过200项任务组合,涵盖物体操作、路径导航、多步指令理解等多个维度。所有任务被划分为“已见”与“未见”两类:前者用于模型训练,后者则完全保留于测试阶段,以真实模拟现实世界中不可预知的情境变化。研究团队分别对两组VLA模型进行训练——一组采用标准SFT范式,依赖人类专家演示数据;另一组则基于深度强化学习框架,通过稀疏奖励信号和长期回报机制驱动自主探索。值得注意的是,实验特别引入动态扰动机制:在测试阶段随机调整物体位置(偏移量达30厘米以上)、改变光照条件或使用语义等价但表述不同的自然语言指令,以此检验模型的跨情境适应能力。整个训练过程在高保真物理引擎中完成,确保动作执行的真实性与反馈的有效性。这一严谨而富有挑战性的实验设计,不仅逼近真实世界的复杂性,更深刻揭示了不同训练范式下智能体行为逻辑的本质差异。
### 5.2 实验结果分析
实验结果令人震撼地印证了强化学习在提升VLA模型泛化能力方面的压倒性优势。面对环境扰动,RL训练的模型在新任务上的平均性能下降仅为18%,而SFT模型则暴跌41%,部分复杂任务失败率甚至突破67%。尤其在“整理书架并取出最左侧书籍放入背包”这类需要分层推理与动作规划的任务中,RL模型的成功率稳定在76%以上,远超SFT模型不足33%的表现。这不仅仅是一组数字的胜利,更是智能本质的彰显——RL模型展现出对任务结构的深层理解,能够将整体目标解耦为可迁移的子策略,并根据实时感知动态调整行为序列。相比之下,SFT模型如同被困在记忆牢笼中的舞者,一旦音乐节奏稍有变化,便失去了原有的协调与流畅。更令人深思的是,RL模型在多次试错中积累的经验,使其具备了某种“类直觉”的判断力:即使从未见过某种门把手形态,也能基于过往交互规律推断出旋转或按压的动作模式。这种从经验中提炼抽象规则的能力,正是人类智能的核心特征。研究团队由此断言:唯有让机器学会在失败中反思、在探索中成长,具身智能才能真正走出实验室,走进千变万化的现实生活。
## 六、未来研究方向与建议
### 6.1 当前研究的局限性
尽管清华大学研究团队在NeurIPS 2025上的工作为VLA模型的泛化能力提升提供了深刻洞见,揭示了强化学习相较于有监督微调的显著优势,但这项前沿探索仍面临不容忽视的现实制约。首先,强化学习的训练过程极度依赖高保真仿真环境与海量交互数据,其计算成本远超SFT,单次完整训练周期可长达数周,资源消耗令多数研究机构望而却步。其次,奖励函数的设计高度依赖专家经验,稍有偏差便可能导致策略收敛于局部最优,甚至出现“欺骗奖励”的行为错觉——模型看似完成任务,实则绕过本质逻辑。此外,当前实验中的200余项任务虽已覆盖多场景,但仍难以模拟真实世界近乎无限的语义-动作组合,尤其在面对极端长尾指令或跨模态歧义时,RL驱动的VLA模型依然表现出决策迟疑与泛化衰减。更深层的问题在于,现有框架尚未真正实现“理解”层面的突破:模型虽能通过试错积累经验,却缺乏对语言意图、物理因果和社交规范的联合建模能力。例如,在医院病房场景中,当指令为“轻点扶病人坐起”,RL模型可能准确执行力度控制,却无法感知“轻点”背后蕴含的人文关怀与风险规避意识。这种情感与伦理维度的缺失,暴露出当前技术路径在迈向真正类人智能时的根本短板。
### 6.2 未来研究方向与建议
面向未来,具身智能的发展亟需从“性能优化”转向“认知深化”,构建融合多重学习范式的新型训练框架。研究者应积极探索SFT与RL的协同机制,例如采用“先模仿后探索”的两阶段策略:以SFT快速建立基础行为库,再通过RL在仿真环境中进行大规模扰动测试与策略演化,从而兼顾数据效率与泛化潜力。同时,引入因果推理模块与世界模型,使VLA不仅能预测动作结果,更能反事实推演“若不如此会怎样”,增强决策的可解释性与鲁棒性。在技术之外,跨学科合作将成为关键突破口——结合发展心理学、认知科学与伦理学,赋予模型对人类意图的深层共情能力。清华大学团队呼吁建立开放的具身智能基准平台,涵盖更多动态社会情境与文化多样性指令集,推动全球协作攻关。唯有如此,VLA模型才能真正走出“聪明的工具”范畴,成长为理解世界、尊重人性、适应未来的智能伙伴。
## 七、总结
清华大学研究团队在NeurIPS 2025上的研究表明,强化学习(RL)在提升视觉-语言-动作(VLA)模型的泛化能力方面显著优于有监督微调(SFT)。实验数据显示,面对环境扰动,RL模型性能下降仅为18%,而SFT模型平均下降达41%,复杂任务失败率甚至超过67%。这表明,SFT虽训练高效,但泛化性受限于静态拟合机制;而RL通过试错与奖励反馈,赋予模型对任务结构的深层理解与跨情境迁移能力。未来需融合SFT的数据效率与RL的探索优势,结合因果推理与跨学科认知研究,推动具身智能从“模仿”迈向“理解”,真正实现类人智能的灵活适应与自主决策。