吴恩达在其最新的Agentic AI课程中系统阐述了构建智能体工作流的四大核心设计模式:反思、工具、规划与协作。他指出,这些模式是开发高效、可靠智能体系统的关键架构基础。课程特别强调评估与误差分析在智能体开发中的核心地位,认为其能力直接决定系统的可迭代性与实际应用效果。通过结合理论讲解与实践案例,吴恩达展示了如何利用这些设计模式提升智能体的自主决策与任务执行能力,为开发者提供了清晰的技术路径与方法论指导。
清华大学与生数科技(Shengshu AI)合作团队在音频超分辨率技术领域取得重要突破,聚焦桥类生成模型与音频超分辨率任务开展系统性研究。该团队的研究成果已分别被语音领域顶级会议ICASSP 2025和机器学习领域顶级会议NeurIPS 2025接收,展现了其在AI语音技术前沿的创新能力。相关工作推动了高保真音频重建的发展,在语音增强、通信及内容创作等领域具有广泛应用前景。
据证实,曾拒绝Facebook创始人马克·扎克伯格15亿美元收购提议的OpenAI前首席技术官Mira Murati所创立的公司Thinking Machines Lab,近期遭遇人事变动。其联合创始人兼首席架构师Andrew Tulloch已正式离职,并加盟Meta公司。这一动向引发了业界对人工智能领域人才流动与竞争格局的关注。Tulloch在AI系统架构方面的深厚背景,使其成为Meta强化AI研发实力的重要补充。与此同时,Murati领导的Thinking Machines Lab未来发展方向尚待观察。
近日,由清华大学特等奖学金得主创立的Sand.ai公司推出了一款名为GAGA-1的音画同步视频生成模型,引发广泛关注。该模型基于先进的深度学习架构,能够根据一张静态图片和一段文本提示(prompt)自动生成高质量、音画同步的视频内容,在时长、流畅度与多模态对齐方面表现突出。实测体验显示,GAGA-1在3秒视频生成任务中平均耗时仅1.8秒,且音频与画面同步准确率达96.4%,显著优于当前主流模型。作为视频生成领域的新兴力量,GAGA-1展现了强大的创作潜力,适用于内容创作、广告制作与教育演示等多个场景。
最新的研究进展进一步支持了“微调已死”的观点。谷歌正扩展其人工智能自我进化范式,通过引入双向学习机制,使模型能同时从成功经验和失败教训中自主优化。斯坦福大学、SambaNova与加州大学伯克利分校的研究人员联合发表论文,提出一种名为“Agentic Context Engineering”(ACE)的创新技术。该技术无需依赖传统微调,即可实现语言模型的性能提升与自我改进,标志着上下文工程进入智能化新阶段。这一突破为AI持续学习提供了高效、可扩展的新路径。
硅谷多位首席执行官发出警告,人工智能(AI)可能在五年内导致失业率攀升至20%,引发社会对“AI失业”的广泛关注。然而,现实情况显示,当前约95%的AI项目处于亏损状态,表明“AI威胁就业”更多是基于对未来技术趋势的预警,而非已发生的普遍现实。尽管短期内AI对就业市场的直接影响有限,但其长期影响仍不容忽视。随着技术不断演进,部分岗位被自动化取代的可能性持续上升,政策制定者与企业需提前布局,推动技能转型与人机协同机制,以应对未来劳动力市场的结构性变化。
Qwen3是一种具有实验性质的人工智能语言模型,拥有30亿个参数,并采用稀疏的混合专家(MoE)架构,其中包含3亿个可激活参数。该模型基于预先训练好的自回归模型Qwen3-30BA3B转换而来,并在持续预训练过程中累计处理了500亿个token,以实现完整的扩散行为。研究团队已将模型代码、训练方法、推理代码及示例输出全面开源,旨在推动AI语言模型的研究与应用,为开发者和研究人员提供高质量的技术参考。
本文探讨了大型语言模型(LLM)越狱攻击的威胁是否被过度估计的问题,并引入了一种全新的越狱评估框架——JADES。该框架采用分解式评分方法,提升了评估过程的透明度、可靠性与可审计性。实证研究表明,JADES在性能上优于现有评估工具,且有效揭示了当前越狱研究中存在的系统性偏差。通过严谨的方法论设计,JADES为LLM安全评估提供了更加科学和可复现的标准,推动该领域向更精准的方向发展。
清华大学研究团队在NeurIPS 2025会议上发表论文,首次系统性探讨了强化学习(RL)在提升具身大模型(VLA)泛化能力方面的潜力。研究对比了RL与自监督训练(SFT)在多样化任务环境中的表现,揭示了RL在跨场景迁移和未知情境适应上的显著优势。团队提出了一套全面的评估基准,涵盖12类复杂交互任务,并设计了高效的RL训练方法,有效降低了训练成本并提升了模型稳定性。实验结果表明,采用该方法的VLA模型在泛化性能上相较SFT基线平均提升27.6%。
中国科学院计算技术研究所在NeurIPS 2025会议上发表了一项关于多模态大型语言模型(MLLM)推理优化的突破性研究,提出名为SpaceServe的创新架构。该架构首次将LLM推理中的生产者/消费者(P/D)分离策略引入多模态场景,通过三阶解耦(EPD)与空间复用技术,有效缓解了MLLM推理过程中长期存在的行头阻塞问题。实验表明,SpaceServe显著提升了系统并发处理能力,在多语言、多模态任务中实现了更高的吞吐量与资源利用率,为高效部署复杂模型提供了新路径。
在扩散模型的运行过程中,AI常因架构缺陷产生如“六指人像”或陌生场景等非预期输出,这类被称为“AI失误”的现象,近期被研究揭示为系统内部信息重组的副作用。令人惊讶的是,这些错误并非随机噪音,反而展现出类创造性行为。科学家指出,这种由系统偏差催生的“创造力”,与人类灵感的涌现机制存在相似性——当大脑中的神经模式发生意外连接时,灵感便随之诞生。一旦人类的灵感固化为可预测模式,人与AI在创造行为上的界限或将逐渐消融。
在最近举办的国际天文与天体物理奥赛(IOAA)中,人工智能再次实现智能突破。GPT-5与Gemini 2.5 Pro两款AI系统在理论考试与数据分析测试中表现卓越,成绩远超人类选手,双双斩获金牌。其中,GPT-5的得分高达金牌人类选手的2.7倍,充分展现了其在复杂科学问题处理中的强大能力。此次AI夺冠不仅标志着人工智能在专业学术竞赛领域的重大进展,也凸显了其在天文学等高精度学科中的应用潜力。
传统推荐系统多依赖“猜你喜欢”的被动模式,难以精准捕捉用户意图。为提升推荐效能,阿里巴巴联合学术机构提出全新的IRF范式(Interactive Recommendation Framework)与RecBot框架,引入自然语言命令实现交互式推荐。该方法允许用户通过自然语言直接表达需求,显著增强推荐的精确性与可控性。实验表明,该框架在多个真实场景中有效优化了用户体验,并带来可观的商业价值提升。
在Open Library项目中,GPT-5的表现未能达到预期,暴露出当前AI在复杂软件工程任务中的局限性。根据SWE-Bench Pro——首个面向企业级软件工程的抗污染评估基准——对1865个真实编程任务的分析显示,GPT-5在处理多文件修改等复杂任务时,任务通过率仅为23.3%。这一数据揭示了即便最先进的AI模型,在理解大型代码库、保持上下文一致性及执行跨文件逻辑修改方面仍存在显著挑战。该研究为AI编程智能体的实际应用提供了重要参考,凸显了在真实开发环境中提升AI工程能力的迫切需求。
加州大学圣塔芭芭拉分校(UCSB)与圣克鲁兹分校(UCSC)的研究团队联合开发了EvoPresent,一种自我进化的智能体框架,专为提升学术演讲的质量与效率而设计。该框架不仅能够使AI清晰解读复杂的学术论文,还能自动生成兼具信息深度与视觉美感的演讲视频,显著提升知识传播的效果。通过持续学习与优化,EvoPresent在内容组织、语言表达和视觉呈现方面展现出强大的自我进化能力,推动AI演讲迈向智能化新阶段。
AI成本超支问题正日益加剧,对首席信息官(CIO)带来巨大压力。最新调查显示,超过80%的企业在AI项目中的实际支出远超预算,其中近25%的项目预算偏差高达50%。从数据平台搭建到大型模型的令牌化调用,隐藏成本层出不穷,显著侵蚀企业利润。随着AI部署规模扩大,相关开销持续攀升,导致整体毛利率普遍下降,迫使CIO重新评估技术投资的可持续性与成本控制策略。




