美团LongCat团队近期推出了一项名为VitaBench的评测基准,专注于评估大模型智能体在真实生活场景中的综合能力。该评测工具以点外卖、餐厅就餐和旅游出行为核心场景,构建了包含66个工具的交互式环境,并设计了跨场景的复杂任务,全面测试模型的决策与执行能力。VitaBench的发布标志着大模型评测从单一任务向多步骤、真实情境迈出了重要一步,为智能体技术的发展提供了更具挑战性和实用性的评估标准。
客服热线请拨打
400-998-8033