技术博客

深入探索TARS Desktop：自然语言控制的未来

TARS Desktop是一款基于UI-TARS（视觉语言模型）的图形用户界面代理应用程序，旨在通过自然语言控制功能让用户以更直观的方式操作计算机。该应用不仅支持通过语音或文本指令完成任务，还集成了截图和视觉识别技术，为用户提供高效、便捷的操作体验。作为一款创新工具，TARS Desktop将人机交互提升到了新的高度，适用于广泛用户群体。

TARS Desktop自然语言控制视觉语言模型图形用户界面截图识别

2025-03-27

探索空间智能新篇章：西北大学团队揭开视觉语言模型空间推理的秘密

西北大学计算机系的研究人员潘震宇及其导师刘晗提出了一项创新性研究：通过规则驱动的强化学习策略，赋予视觉语言模型空间推理能力。为此，他们开发了名为MetaSpatial的3D空间推理框架，该框架旨在解锁与空间智能相关的50条数据，为人工智能领域注入新动力。

空间推理视觉语言模型强化学习MetaSpatial框架西北大学研究

2025-03-24

Atron-VLM框架：推动视觉语言模型训练新篇章

Atron-VLM框架是专为视觉语言模型（VLM）训练设计的高效解决方案。该框架支持大规模分布式训练，显著提升训练效率，同时兼容多种预训练模型，如BERT、GPT和T5。此外，其内置的内存优化技术有效降低了训练成本，为研究人员和开发者提供了强大的工具支持。

Atron-VLM框架视觉语言模型分布式训练预训练模型内存优化技术

2025-03-21

视觉语言模型的物理世界挑战：EgoNormia基准测试解析

杨笛一团队近期发布了EgoNormia基准测试，专注于评估视觉语言模型在物理世界中的社会规范理解能力。测试表明，尽管技术有所进步，但最先进的模型在规范推理方面仍显著落后于人类。其主要挑战在于模型难以准确判断社会规范的合理性和优先级，这限制了其在复杂场景中的应用。

EgoNormia基准视觉语言模型社会规范理解规范推理能力物理世界判断

2025-03-20

UniAct：引领开源具身智能框架技术新篇章

清华大学智能产业研究院（AIR）联合商汤科技研究院等机构，发布了名为UniAct的开源具身智能框架。该框架通过视觉-语言模型（VLM）技术，解决了机器人动作异构一致性问题，显著提升了性能。值得注意的是，UniAct在性能上超越了参数量为其14倍的模型，展现了高效的技术优势。

具身智能框架视觉语言模型开源技术机器人动作性能提升

2025-03-20

视觉语言模型能力限制的深度剖析：寻找关键瓶颈

尽管视觉语言模型（VLMs）的能力持续提升，但其能力限制仍显而易见。当前评测标准多聚焦于复杂知识推理或特定领域应用，却忽略了那些对人类而言是本能反应、对AI却是巨大挑战的能力。文章提出一种新的评估视角，旨在发现VLMs的关键瓶颈，从而推动技术突破。

视觉语言模型能力限制评估视角知识推理关键瓶颈

2025-03-17

VLM²-Bench：AI在视觉关联能力上的困境

视觉语言模型（VLMs）虽在复杂推理中表现出色，但在人类“无需思考”的本能反应上却显现出短板。例如，VLM²-Bench研究表明，AI在处理视觉关联能力时面临巨大挑战，这可能成为其发展的关键瓶颈。这种能力的缺失揭示了当前VLM评估标准的局限性，也提示研究者应更加关注AI对简单直观任务的理解与学习。

视觉语言模型AI短板人类本能VLM评估视觉关联能力

2025-03-17

创新驱动未来：AlphaDrive引领自动驾驶新篇章

华中科技大学与地平线机器人联合推出了最新研究成果——AlphaDrive，该方案通过结合视觉语言模型（VLM）和强化学习（RL），提出了一种创新的GRPO框架，专注于解决自动驾驶领域的长尾问题。这一技术显著提升了自动驾驶系统在复杂及罕见交通场景中的适应性和鲁棒性，为行业带来了突破性进展。

AlphaDrive自动驾驶长尾问题视觉语言模型强化学习

2025-03-17

深度探索视觉语言模型的安全性：挑战与策略

武汉大学联合多家机构发布了一篇关于大型视觉语言模型（LVLMs）安全性的综述论文。该研究提出了一套全面的安全分类框架，涵盖攻击策略、防御机制及评估方法，并对最新模型DeepSeek Janus-Pro进行了安全性测试。结果显示，尽管DeepSeek Janus-Pro在多项性能指标上表现出色，但在面对特定攻击时仍存在明显不足，亟需改进其安全防护措施。

视觉语言模型安全性测试攻击策略防御机制DeepSeek模型

2025-03-17

深度解析：大型视觉语言模型的安全性挑战

武汉大学联合多家机构发布了一篇关于大型视觉语言模型（LVLMs）安全性的综述论文。该研究提出了一套全面的安全分类框架，涵盖攻击策略、防御机制及评估方法。研究团队对最新模型DeepSeek Janus-Pro进行了安全性测试，结果表明该模型在安全性方面存在明显不足，亟需改进。

视觉语言模型安全性测试攻击策略防御机制DeepSeek模型

2025-03-13

OmniManip架构：引领机器人3D理解能力新篇章

北京大学与智元机器人团队合作开发了OmniManip架构，该架构以对象为中心，结合3D交互基元和视觉语言模型（VLM）的高层次推理能力。通过双闭环系统，这些能力被转化为机器人的低层次、高精度动作，显著提升了机器人的3D理解能力。这一创新使机器人能够更精准地执行复杂任务，为未来智能机器人的发展奠定了坚实基础。

OmniManip架构3D交互基元视觉语言模型双闭环系统机器人动作

2025-01-22

多模态教科书：引领视觉语言模型预训练新篇章

本项目致力于为大型语言模型开发包含图像和文字的多模态教科书，以增强其对专业知识的理解与表达能力。通过分析2.5年的教学视频内容，提取出丰富的多模态语料，进而开发出一种用于预训练视觉语言模型的教科书。该教科书采用图文结合的方式，使模型能够自然地学习专业知识，显著提升其多模态理解和生成能力。

多模态教科书视觉语言模型图文结合教学视频预训练模型

2025-01-20

创新安全技术PSA-VLM：视觉语言模型的新篇章

淘天集团未来生活实验室团队与南京大学、重庆大学及香港中文大学MMLab合作，提出了一种创新的视觉语言模型（VLM）安全对齐技术——PSA-VLM（Progressive Safety Alignment for Vision-Language Models）。该技术旨在提升视觉语言模型的安全性，同时确保模型性能不受影响。通过渐进式安全对齐方法，PSA-VLM能够在保障模型安全性的同时，维持其高效运行，为视觉语言模型的应用提供了更为可靠的技术支持。

视觉语言模型安全对齐技术PSA-VLM模型性能高校合作

2025-01-17

视觉语言模型的安全挑战与对抗样本生成新策略

视觉语言模型（VLMs）在图像生成文本和文本生成图像等任务中表现出色，广泛应用于自动驾驶、视觉辅助和内容审核等领域。然而，这些模型对对抗性攻击非常敏感，存在潜在的安全风险。西安交通大学等机构提出了一种基于扩散模型的新方法来生成对抗样本，旨在提高VLMs的安全性和鲁棒性。该方法通过模拟对抗攻击，评估并增强模型的防御能力，确保其在实际应用中的可靠性。

视觉语言模型对抗样本生成扩散模型应用对抗鲁棒性安全性提升

2024-12-30

Pi-Zero机器人：引领视觉语言模型新篇章

Physical Intelligence公司近期推出了一款名为Pi-Zero的机器人基础模型。该模型基于预训练的视觉语言模型（VLM）构建，在五项关键的机器人任务评估中表现出色，超越了其他基线模型。这一突破性进展标志着机器人技术在智能化和多功能性方面取得了重要进步。

Pi-Zero机器人视觉语言模型任务评估优基线模型超预训练模型

2024-12-25

AI热点

2025-05-29

SpringBoot框架下公共字段自动填充的六种高效策略

科技热点

SpringBoot框架下公共字段自动填充的六种高效策略