在开放世界游戏中,实现NPC行为的自然流畅是提升沉浸感的核心。然而,当前许多设计仍停留在增加NPC数量或丰富交互动作的表层,忽视了支撑这些表现的底层架构。研究表明,真正生动的游戏世界依赖于一个协同稳定的技术框架,该架构需整合行为决策、环境感知与多智能体协调机制。通过构建统一的行为树与动态调度系统,NPC可在复杂环境中表现出连贯且合理的行动逻辑。唯有夯实这一基础,才能让NPC行为摆脱机械重复,真正实现如现实般自然流动的整体生态。
Temporal公司近日宣布与OpenAI达成合作,推出面向AI Agent的持久化方案,并已启动公开预览。该集成服务使基于OpenAI框架构建的AI代理能够实现持久化执行,显著提升其在真实环境中的稳定性与可靠性。通过这一集成,开发者可轻松应对LLM用量限制、网络中断及系统崩溃等常见挑战,无需额外增加代码复杂性。此项技术突破降低了构建高可用AI应用的门槛,推动AI代理在复杂任务场景中的广泛应用。
北京大学与字节跳动团队联合提出一种新型树形强化学习算法——BranchGRPO。该算法在扩散反演过程中引入分叉与剪枝机制,允许多条学习轨迹共享前缀并在中间步骤动态分叉,有效提升了探索效率。同时,通过逐层奖励融合策略实现稠密反馈,显著增强了训练过程中的信号密度。实验表明,BranchGRPO相较传统的DanceGRPO,在学习效率上实现了近5倍的速度提升,为复杂序列决策任务提供了更高效的解决方案。
在Scale AI推出的最新软件工程基准测试SWE-BENCH PRO中,GPT-5的编程能力表现引发关注。初步结果显示其任务解决率为23.3%,略高于Claude Opus 4.1的22.7%和Gemini 2.5的13.5%,但深入分析发现,GPT-5有63.1%的任务未提交。若将未提交任务纳入统计,其实际有效得分将远超表面数据,达到Claude的两倍,展现出戏剧性的反转。这一结果揭示了当前AI模型在编程任务评估中表现与完成度之间的复杂关系,也对测试标准提出了新的思考。
在最新的GPT-5编程测评中,出现了令人意外的反转。初步数据显示,GPT-5、Claude Opus 4.1和Gemini 2.5在SWE-BENCH PRO基准测试中的任务解决率分别为23.3%、22.7%和13.5%,均未超过25%。然而,进一步分析揭示,高达63.1%的任务未被模型提交。若将未提交任务纳入评估体系,GPT-5的实际表现显著优于对手,其有效解决率约为Claude Opus 4.1的两倍。这一发现源于Scale AI推出的新软件工程基准SWE-BENCH PRO,凸显了当前大模型在复杂编程任务中仍面临巨大挑战,同时也提示评估方式对结果解读具有关键影响。
创始人栗浩洋近日在社交平台透露,其两个儿子自小学二年级起便开始使用松鼠Ai进行学习,到三年级时已掌握相当于八年级的物理知识,学术水平超越初中毕业生。目前,两兄弟已在初中阶段脱离传统学校体系,转为在家通过人工智能系统接受教育。这一实践体现了AI教育在个性化学习路径中的巨大潜力。据悉,由俞敏洪投资的这家AI教育企业,尽管负债高达9亿元,仍保持稳健运营,并计划将业务拓展至美国,推动全球范围内的教育革新。
在Hot Chips 2025会议上,谷歌Gemini项目的联合负责人、Transformer模型的共同发明者Noam Shazeer就人工智能通用性(AGI)的发展方向发表见解。面对当前大型AI模型对算力、存储和网络连接的迫切需求,他指出,制约AGI进一步突破的关键因素并非单纯的算力或存储能力,而是复杂的网络连接效率。Shazeer强调,在分布式训练中,模型参数的同步与通信开销已成为性能瓶颈,优化芯片间和系统内的数据传输架构比单纯提升计算能力更为重要。这一观点为未来AI基础设施的设计提供了新的思考方向。
在QCon伦敦大会上,Ludi Akue分享了其团队在绿色IT实践中的系统性成果。该团队通过四个关键步骤降低信息技术对环境的影响:首先进行生命周期评估,全面识别IT产品或服务在各阶段的环境负担;其次设定明确的10%减排目标,推动可持续改进;随后通过简化IT架构减少复杂性,有效降低能耗;最后优化前端设计,在提升用户体验的同时减少资源消耗。这些实践不仅增强了技术效率,也促进了技术发展与气候目标的协同推进。
近期,西湖大学推出的WorldForge技术在空间智能领域开辟了新路径,致力于实现无需训练的世界模型。该技术突破传统依赖大量数据训练的模式,使人工智能具备对三维世界的深层理解能力。通过创新的算法架构,WorldForge能够自动生成高度逼真的视频片段,其视觉效果几可乱真,在互联网上引发广泛关注与热议。这一进展不仅推动了人工智能在环境建模与场景生成方面的能力,也为虚拟现实、自动驾驶等领域提供了新的技术可能,标志着我国在空间智能前沿研究中的重要突破。
传统工业级3D虚拟世界的构建方法耗时耗力,难以满足高效创作需求。新框架LatticeWorld通过AI技术革新了这一流程,实现了从一句话描述或一张草图到高仿真3D虚拟世界的快速自动生成,构建效率提升高达90倍。该技术显著降低了专业门槛,大幅缩短开发周期,为内容创作者提供了前所未有的高效工具。
IBM最新推出的工具调用判断器ToolRM,显著提升了智能体在工具调用中的准确率,增幅高达25%。作为智能体(Agent)的核心功能模块,工具调用(Tool-Calling)被视为大型语言模型(LLM)的“双手”,使其能够调用API、数据库、计算器和搜索引擎等外部资源,极大扩展了AI的执行能力与任务覆盖范围。ToolRM通过优化决策机制,有效增强了LLM在复杂环境下的工具选择与使用精度,为智能体的技术演进提供了关键支持。
近日,Anthropic旗下AI模型Claude被广泛质疑“降智”,多位开发者反馈其推理与生成能力显著下降。官方回应称问题源于基础设施的临时bug,并已修复。然而,这一解释未能平息争议,用户指出性能下滑持续多日,影响实际应用,质疑官方将系统性缺陷归咎于技术小故障。更引发不满的是,尽管承认模型表现未达承诺标准,官方并未提供任何补偿或退款方案。批评声音认为,此举暴露了AI服务在透明度与用户权益保障上的缺失,迟来的说明难以挽回信任。
LinkedIn利用其现有的消息系统构建了一个企业级的多智能体AI系统,通过将生成式AI应用平台扩展至支持多智能体协作,实现了高效的工作流自动化。该公司重新利用成熟的消息基础设施作为协调层,避免了从零构建新的协调技术,显著降低了开发复杂性与部署成本。这一架构使智能体之间能够在全球范围内进行可靠通信与任务协同,支持复杂的多步骤工作流程。借助该系统,LinkedIn不仅提升了AI应用的可扩展性,还确保了系统的高可用性与稳定性,为未来大规模智能体部署奠定了基础。
MCP注册中心作为模型上下文协议(MCP)生态系统的核心组件,通过提供公共注册服务实现服务器的自动发现,并结合安全网关保障Agent间的通信安全。该机制有效简化了AI工具的管理流程,提升了工程团队在AI协作中的效率与安全性。与此同时,MCP注册中心与Linux基金会推出的Agentgateway项目共同推动人工智能技术的发展,为构建开放、协同的AI开发环境提供了基础设施支持。
Replit作为一款新兴AI开发工具,近期因其高昂定价与不稳定性能引发广泛争议。尽管其Agent 3版本宣称可连续运行一小时,展现出一定的自动化能力,但用户普遍反映其实际表现难以匹配价格预期。问题核心在于Replit依赖闭源模型架构,导致开发者无法进行深度定制与优化,严重限制了应用场景的拓展。此外,技术社区质疑其在关键技术栈上并未实现显著突破,所谓的“智能编程助手”功能仍处于初级阶段。高成本与低可靠性之间的落差,使其在竞争激烈的AI工具市场中面临信任危机。
捷豹路虎因将核心IT业务外包给印度公司,遭遇严重运营危机,导致巨额资金损失,并被迫安排数万名员工休假。尽管外包初衷是降低运营成本,但实际执行中暴露出系统整合不力、服务质量下降及沟通效率低下等问题,最终引发灾难性后果。此次事件凸显企业在推进IT外包策略时,需全面评估风险与长期影响。