在3D内容创作领域,实现类似乐高积木式的自由生成、编辑和组合对象部件一直是一项关键挑战。香港大学、VAST、哈尔滨工业大学与浙江大学的研究团队联合提出OmniPart框架,首次实现了高效、灵活的3D部件级生成与编辑。该框架支持跨类别、细粒度的部件操作,显著提升了3D资产创作的模块化与可复用性。研究成果已被计算机图形学顶级会议SIGGRAPH Asia 2025录用,为未来智能3D内容生成提供了重要技术路径。
北京大学与华为公司联合研发了一种新型KV缓存管理框架,显著提升了大型模型在处理长序列推理任务时的效率。该框架有效缓解了KV缓存在长序列场景下内存需求随长度线性增长的问题,这一瓶颈长期以来制约着大模型的实际部署。实验结果表明,新框架相较此前最佳状态(SOTA)实现了4.7倍的推理速度提升,为大规模模型在复杂应用场景中的高效运行提供了创新解决方案,具有重要的工程与应用价值。
Video-RAG是由厦门大学、罗切斯特大学与南京大学联合提出的一种新型轻量级框架,旨在应对长视频理解中的关键挑战。该框架无需微调即可高效处理长时序和复杂语义的视频内容,有效克服了传统方法在上下文长度限制、跨模态对齐困难及高计算成本等方面的瓶颈。通过引入跨模态检索增强机制,Video-RAG实现了对长视频中多模态信息的精准捕捉与整合,在保持高性能的同时显著降低了资源消耗,为长视频理解提供了高效且可扩展的解决方案。
一项突破性的进展在模型可解释性领域诞生!由UIUC、ANU、港科大、UW、TAMU等多所高校研究人员共同开发的新框架GRACE,首次实现了生成式Embedding的可解释性。该框架创新性地要求模型在进行Embedding学习之前先生成解释,从而显著提升模型的透明度与决策可靠性。这一方法为复杂模型的可信部署提供了新路径,推动了可解释人工智能的发展。
百川公司近日发布了一款名为循证增强大模型M2 Plus的创新产品,旨在打造类似医生版ChatGPT的智能助手。该模型在关键技术指标上表现突出,相较于DeepSeek,其幻觉率降低了3倍,显著提升了生成内容的准确性与可靠性。依托循证模型的设计理念,M2 Plus能够基于权威医学证据提供专业支持,为医疗从业者提供高效、可信的辅助决策工具。百川公司致力于推动人工智能在医疗领域的深度应用,此次发布标志着其在专业垂直领域智能化服务的重要进展。
北京智源人工智能研究院VectorSpace Lab团队近日推出EditScore,一个创新的高保真奖励模型系列,专注于为基于指令的图像编辑任务提供精确、可靠的奖励信号。该模型旨在推动在线强化学习技术在人工智能生成内容(AIGC)领域的应用,显著提升图像编辑的可控性与生成质量。通过精准评估编辑结果与用户指令的一致性,EditScore为AIGC系统的持续优化提供了关键技术支撑,有望加速智能图像创作工具的发展与落地。
CVPR 2026宣布一项重要新规,要求所有投稿论文的作者披露研究中所使用的计算资源成本。此举旨在提升人工智能领域的研究透明度与效率,推动可持续的研究实践。通过系统性收集计算成本数据,会议组织方将评估不同研究团队的资源可及性,识别高效能的研究模式,并揭示当前领域内的资源分配格局。为鼓励高透明度与高效率的研究工作,CVPR将设立三项专项认可奖,表彰在资源使用方面表现卓越的论文。该政策标志着学术社区向更负责任、可复现和公平的科研方向迈出关键一步。
在最新一届国际计算机视觉会议(ICCV)上,卡耐基梅隆大学(CMU)的朱俊彦团队凭借其创新性的砖块积木项目荣获最佳论文奖。该研究提出了一种全新的基于模块化结构的视觉生成方法,显著提升了三维场景建模的效率与灵活性,在计算机视觉领域引发广泛关注。与此同时,以色列理工学院(Technion)的研究团队则摘得最佳学生论文奖。此次获奖不仅彰显了CMU在人工智能与视觉计算领域的领先地位,也体现了全球科研团队在视觉技术前沿的激烈竞争与持续突破。
在QCon上海会议上,火山引擎展示了其AI驱动的新一代数据湖技术,标志着新基建背景下多模态数据管理的重要突破。面对图像、文本、音频等多样化数据的激增,传统数据湖架构已难以满足高效存储与智能处理的需求。火山引擎通过融合AI能力与分布式存储技术,构建了支持高并发、低延迟的下一代多模态数据湖,实现了数据接入、治理与分析的一体化升级。该方案已在多个行业落地,提升数据处理效率达60%以上,显著降低运维成本。然而,在数据一致性、跨模态语义对齐及安全合规方面仍面临挑战,需持续优化算法与架构设计。
Slack最新推出的异常事件响应(AER)安全系统,旨在通过实时监测和自动化响应机制,显著缩短从发现可疑活动到实施缓解措施的时间。该系统能够快速识别潜在威胁,帮助组织在安全漏洞扩大前及时干预,提升整体安全性。AER的部署体现了Slack在企业通信平台安全防护领域的持续创新,适用于各类规模的组织,有效应对日益复杂的安全挑战。
亚马逊云科技近日推出EC2实例认证功能,旨在提升云环境的安全性与可信度。该特性依托Nitro可信平台模块(NitroTPM)和可认证的Amazon Machine Images(AMI),使客户能够通过加密手段验证其虚拟机是否运行经授权的软件配置。这一创新强化了从底层硬件到上层系统的信任链,有效防范未经授权的系统篡改和恶意软件植入,为金融、医疗等高合规要求行业提供了更强的安全保障。
在通用人工智能(AGI)即将到来之际,来自加州大学伯克利分校、华盛顿大学及艾伦人工智能研究所的联合研究团队在强化学习(RL)领域取得突破性进展。研究表明,在特定训练条件下,强化学习不仅能增强已有能力,还能催生全新的算法级推理模式。为验证该理论,团队开发了DELTA测试框架,实验结果显示,模型表现从零奖励跃升至接近100%成功率,展现出显著的“RL grokking”现象,标志着真正的学习机制正在发生。这一发现为通向具备深层推理能力的通用AI提供了新路径。
清华大学与快手公司联合提出了一种名为AttnRL的新型算法,旨在通过引入注意力机制提升大型机器学习模型在强化学习中的探索能力。该算法结合了注意力机制的动态权重分配优势与强化学习的决策优化特性,有效增强了模型对关键状态和动作的识别能力,从而提高了学习效率与性能表现。从AlphaGo战胜人类围棋冠军,到GPT系列模型展现强大语言推理能力,强化学习始终是推动机器学习迈向更高智能水平的核心技术之一。AttnRL的提出为复杂任务下的智能决策系统提供了新的技术路径,标志着清华快手在人工智能前沿领域的深度合作取得重要进展。
“脑腐”(Brain Rot)被牛津大学出版社评为2024年年度热词,用以描述因长期暴露于社交媒体中低质量、碎片化信息而导致的精神与智力退化现象。随着数字平台的迅猛发展,用户日均花费数小时浏览短视频、短文本和即时内容,导致注意力持续下降、深度思考能力减弱。研究表明,过度依赖算法推送的信息流,可能削弱个体的认知整合能力,加剧信息过载带来的心理负担。该术语的流行不仅反映了公众对数字成瘾的担忧,也揭示了信息消费模式转变对人类思维结构的深远影响。
HumanLift技术由计算所等机构联合提出,实现高保真度的三维数字人重建,显著提升了数字人在动态姿态与外观细节上的真实感。该技术通过多视角视频输入,结合先进的神经渲染与人体几何建模算法,可在复杂动作下保持皮肤纹理、毛发及服装的精细还原,重建精度达到毫米级。HumanLift在三维影视制作、游戏开发及虚拟/增强现实(VR/AR)等领域展现出广泛应用前景,为数字内容创作提供了高效、高质量的技术路径。
尽管LLM智能体在人工智能领域展现了卓越的任务处理能力,如语言理解、内容生成与复杂推理等,其AI表现在多个应用场景中已接近甚至超越人类水平,但仍存在一定的智能不足。例如,在需要深层语境理解或情感共鸣的任务中,LLM智能体常表现出逻辑偏差或回应机械化。此外,面对动态环境和未知问题时,其适应能力仍有限。这些局限表明,当前的LLM智能体虽在技术上取得显著进展,但在实现真正类人智能方面仍有提升空间。




