构建面向GUI Agent的“世界模型”——即精准预测屏幕状态变化的能力——仍是当前人机交互智能体研发的核心挑战。从单步演示(Demo)迈向跨设备、长流程、高鲁棒性的工程级Agent,需系统性突破数据流建模与强化学习算法瓶颈。Mobile-Agent-v3.5的发布为此提供了关键支撑:其开源底层基座模型、多端统一的动作空间设计,以及经大规模任务验证的RL训练范式,共同构成了可复用、可扩展的技术底座,显著降低了GUI Agent的研发门槛与落地成本。
世界模型GUI AgentMobile-Agent动作空间强化学习
2026-03-05