WorldArena 是一个全新构建的评测基准,专为系统性评估具身世界模型(Embodied World Models, EWM)的真实能力而设计。该基准突破传统仿真环境局限,强调在开放、动态、多模态的真实世界交互场景中检验模型的感知—推理—决策—行动闭环能力。WorldArena 覆盖跨文化、跨地理、跨任务的复杂具身挑战,支持对泛化性、鲁棒性与因果理解等核心维度的量化评估,标志着世界模型评测从“理想化测试”迈向“真实能力验证”的关键一步。
WorldArena具身模型评测基准世界模型真实能力
2026-03-04