苹果公司的研究人员最近在大型语言模型(LLM)领域取得了一项重要发现,揭示了模型中被称为“超级权重”的关键参数现象。尽管这些参数仅占模型总参数量的0.01%,但它们可能包含多达数十万个权重值,对模型性能具有显著影响。这一发现为模型训练和优化提供了新的视角,使原本被视为“炼丹术”的过程变得更加科学和可控,为未来模型的设计和改进奠定了坚实基础。
牛津大学近期提出了一种名为“记忆增稳”的新技术,该技术通过引入基于3D几何的记忆索引机制,有效替代了传统依赖最近几帧信息的短窗上下文方法。这种创新方式能够在小上下文环境中,精准检索与当前渲染表面区域相匹配的参考视角,从而显著提升长时间一致性。实验结果表明,该技术的处理速度达到4.2秒每帧,相较传统使用21帧上下文的方法,效率提升了约12倍,展现出极高的应用潜力。
近年来,生成式人工智能和多模态大型模型在多个领域取得了显著进展,为自然语言处理、图像生成和跨模态任务带来了革命性的变化。然而,在动态环境中,数据分布和任务需求不断变化,这对大型模型的持续学习能力提出了关键挑战。如何在不遗忘已有知识的前提下,快速适应新任务和新数据,成为当前研究的热点问题。有效的持续学习策略不仅需要提升模型的灵活性,还需兼顾计算效率和稳定性。
字节跳动公司最新推出的虚拟人技术OmniHuman-1.5,标志着虚拟交互领域的重大突破。该技术不仅能够精准同步用户的口型,还能在用户讲述关键信息时展现出恍然大悟的表情,或在用户分享悲伤故事时流露出同情的神态。此外,OmniHuman-1.5还能根据对话内容的逻辑,自动生成相应的手势,使虚拟人的交流更加自然和富有逻辑性,极大提升了人机交互的沉浸感和真实感。
在沉寂一个月后,OpenPangu迎来了性能的显著提升,整体性能提升了8%。这一进步不仅展现了OpenPangu持续优化的能力,也再次引发了业界对大模型发展的关注。与此同时,华为正式发布了其1B参数的开源模型,为端侧AI领域注入了新的活力。华为的盘古大模型凭借其强大的性能和开源策略,在AI热门赛道上投下了一颗具有深远影响的“重磅炸弹”。这一系列动作标志着大模型技术正加速演进,并推动AI应用向更广泛的场景延伸,为行业带来了更多可能性。
快手公司近日推出了一款名为Keye-VL 1.5的视频理解模型,并已将其开源。该模型具备128k上下文理解能力,能够高效处理长视频内容,同时实现0.1秒级的视频定位速度,显著提升了实时分析的效率。此外,Keye-VL 1.5还具备跨模态推理能力,可在不同模态之间进行智能推理分析,为视频内容的理解与应用提供了更广阔的可能性。
近年来,AI领域面临一个日益突出的问题——AI幻觉。OpenAI近期发表的一篇论文深入探讨了这一罕见但影响深远的现象。AI幻觉指的是模型在运行过程中自信地编造信息,使得真实与虚构难以区分。这种能力并非源于代码故障,而是模型本身存在的一种根本性缺陷。这种信息编造行为已成为阻碍人们完全信任AI的主要障碍。随着AI技术的广泛应用,如何识别、控制并减少AI幻觉的影响,成为当前研究的重要课题。
在大型语言模型的训练过程中,除了数据的数量和质量,训练数据的呈现顺序同样对模型的智能水平有着重要影响。通过科学地调整数据出场顺序,可以有效提升模型的学习效率和推理能力。这种优化方式为模型训练提供了新的思路,使模型在处理复杂任务时表现更加出色。
AnimaX提出了一种基于世界模型的3D动画生成新范式,能够驱动任意骨骼系统的模型,为游戏、影视制作、虚拟人和交互式内容创作等领域带来了突破性进展。传统计算机图形学中的动画制作依赖于骨骼绑定和关键帧编辑,虽然能实现高质量和精细控制,但需要经验丰富的艺术家投入大量时间和人力,导致成本较高。AnimaX通过引入世界模型,实现了更高效、智能的动画生成方式,为高质量3D内容的创作提供了全新解决方案。
清华大学在ACL'25会议上发布了一项名为FloorPlan-LLaMa的创新模型,该模型旨在自动生成建筑平面图。与传统模型不同,FloorPlan-LLaMa突破了技术指标优秀但难以满足建筑师实际设计需求的局限。它通过建筑专业知识驱动,能够根据建筑师的设计偏好生成既实用又符合设计意图的建筑平面图方案。这一创新不仅提高了工作效率,还有效解放了设计师的创造力,为建筑设计领域带来了新的可能性。
近日,字节跳动公司发布了一款名为Seed的机器人全能大模型,由李航团队研发。该模型整合了机器人的推理能力、任务规划和自然语言交互功能,使得机器人不再需要分散的大脑模块。Seed的推出标志着机器人技术迈向更加智能化和集成化的新阶段,为未来机器人在复杂环境中的应用提供了全新可能。
最近两年,为了降低大型AI模型预训练的成本,市场上涌现出多种新型优化器,它们声称相比AdamW优化器能够提升1.4倍至2倍的预训练速度。然而,斯坦福大学的一项最新研究指出,这些新优化器的实际加速效果并未达到宣传水平,并且随着模型规模的扩大,其加速能力还会逐渐减弱。该研究强调了在优化器选择过程中进行严格基准测试的重要性,以确保其性能符合预期并满足实际需求。
近日,OpenAI对其GPT-5核心团队进行了重大组织结构调整,引发业界广泛关注。此次调整不仅涉及团队结构的重组,还包括领导层的变动,其中亚裔女性负责人被调离。与此同时,团队罕见地公开了AI幻觉问题的原因,并将ChatGPT的模型行为团队并入Post-Training部门,由前负责人Joanne Jang领导新成立的OAI Labs。调整的背后原因可能与最近的一项发现有关:现有的评测体系在奖励模型产生幻觉,导致模型变成了应试型选手。这次组织重组和评测范式的重构可能会改变AI的能力边界和产品形态。
随着互联网内容的爆炸式增长,如何高效、准确地进行大规模内容审核成为行业面临的核心挑战。本文聚焦于快手安全算法团队自主研发的多模态大型模型技术解决方案,深入探讨其在内容安全审核中的实际应用。该技术通过整合文本、图像、视频等多模态信息,实现了审核流程的智能化与自动化,显著提升了审核效率与准确性。在实际业务场景中,该模型已成功应用于多个高并发审核任务,为内容安全提供了强有力的技术保障。
在最近的OOP会议上,Xin Yao深入探讨了如何通过社会技术设计优化架构决策,并以此推动组织和技术层面的变革。Xin Yao强调,架构决策不仅仅是技术问题,还涉及团队协作、沟通模式以及组织文化等社会因素。通过结合社会技术设计原则,可以更好地平衡技术需求与人类行为之间的关系,从而提升系统的可持续性和适应性。此外,Xin Yao分享了实际案例,展示了社会技术设计在复杂项目中的应用价值,为与会者提供了可借鉴的实践思路。
在人工智能技术迅速发展的背景下,算力竞争愈发激烈,企业亟需通过创新手段寻找突破口。阿里云通过高效整合计算与存储资源,为人工智能技术的落地应用提供了强有力的支持。这种资源整合不仅提升了算力的利用效率,还为企业在技术应用和业务拓展上创造了显著优势。面对激烈的市场竞争,阿里云的策略为行业提供了可借鉴的经验。




