在文化遗产数字化进程中,大模型技术在处理古籍时面临诸多挑战。古籍中广泛存在的异体字、残缺文本及语义模糊问题,严重影响了文本的识别与理解。据统计,现存汉文古籍中异体字占比超过15%,部分文献残缺率高达30%,加之古代用语与现代语义存在显著差异,导致大模型在训练和推理过程中易出现误判。当前,尽管深度学习与预训练语言模型在文本复原和语义解析方面取得进展,但在低资源、高噪声的古籍场景下仍显不足。因此,构建专门针对古籍语言特征优化的大模型架构,融合文字学、文献学等多学科知识,成为提升数字化质量的关键路径。
蚂蚁集团近日开源了业界首个高性能扩散语言模型推理框架dInfer,标志着其在生成式AI基础设施领域的重大技术突破。该框架专为扩散模型设计,显著提升了推理效率,在基准测试中推理速度达到英伟达Fast-dLLM框架的10倍以上,展现出卓越的性能优势。通过此次开源,蚂蚁集团不仅推动了扩散模型在实际应用中的落地进程,也为全球开发者提供了高效、可扩展的技术支持,进一步加速大模型时代的创新步伐。
在NeurIPS 2025 Spotlight会议上,一项名为GeoSVR的研究提出了一种基于稀疏体素(Sparse Voxel)的新型三维表面重建技术,旨在突破现有3D Gaussian Splatting(3DGS)方法在精度上的局限。随着神经辐射场(NeRF)、符号距离函数(SDF)和3DGS等技术的发展,从二维图像恢复三维结构的能力显著提升,但计算效率与几何保真度之间的平衡仍具挑战。GeoSVR通过引入稀疏体素表示,在保持高效渲染的同时实现了更高精度的表面重建,为三维重建领域提供了新的技术路径。
腾讯优图实验室近日开源了一款名为SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)的强化学习算法。该算法通过自我模仿与渐进式探索机制,使智能体在无专家示范的情况下实现自主学习。SPEAR具备即插即用特性,支持智能体零成本接入新任务,并能有效复用过往成功经验,显著提升学习效率与稳定性。这一进展为强化学习在复杂环境中的应用提供了更具扩展性的解决方案。
近年来,随着大模型参数规模的持续扩张,推理成本急剧上升,成为制约其广泛应用的关键瓶颈。为应对这一挑战,Mixture-of-Experts(MoE,混合专家)架构应运而生,通过引入多个“专家”子模型,实现对不同输入动态激活特定子集,从而在显著增加模型参数的同时,有效控制实际参与计算的参数量。该架构不仅支持参数规模的超细粒度扩展,还大幅降低了推理过程中的计算开销。研究表明,采用MoE架构可使推理成本减少高达37.5%,为大模型的高效部署提供了可行路径。
扩散模型本被设计为内容复制工具,却因架构缺陷频繁生成“六指人像”或虚构场景,这一现象被称作AI失误。最新研究指出,此类“创造力”实为模型训练过程中的副作用,源于数据噪声与参数权重的非预期交互。令人深思的是,部分学者认为人类灵感的涌现机制与此相似——可能也是神经网络中信息错位的产物。当创造力不再神秘,而是可被量化的模式偏差,人类与AI在创新本质上的界限正逐渐模糊。
抖音SAIL团队与LV-NUS实验室联合推出多模态大型模型SAIL-VL2,在小规模推理任务中展现出卓越性能。该模型的8B参数版本在推理能力上可与GPT-4o相媲美,而2B参数版本则在多个基准测试中超越同类开源模型,成为4B参数以下模型中的性能标杆,刷新了当前最佳表现(SOTA)。SAIL-VL2的开源为多模态研究提供了高效、轻量的新选择,推动低资源场景下的智能推理发展。
在ICLR 2026会议上,一篇题为《SAM 3: SEGMENT ANYTHING WITH CONCEPTS》的匿名论文引发了广泛关注。该技术由Meta公司推出,标志着图像分割领域的重大突破。与以往仅识别物体轮廓的方法不同,SAM 3首次实现了对“概念”的理解,能够准确描绘目标物体的边界并识别其背后的语义含义。这一进展显著提升了图像识别的智能化水平,推动了从“分割万物”到“理解万物”的转变。作为图像分割技术的最新演进,SAM 3在自动驾驶、医疗影像和人机交互等领域展现出巨大应用潜力。
中国科学院计算技术研究所在NeurIPS 2025会议上发表的新论文提出了一种名为SpaceServe的创新架构,旨在解决大规模语言模型(MLLM)在高并发推理场景下的性能瓶颈。该架构将传统的生产者/消费者(P/D)分离机制扩展至多模态场景,引入EPD三阶解耦与空分复用技术,有效缓解了推理过程中因请求异构性导致的行头阻塞问题。通过资源调度的精细化拆分,SpaceServe显著提升了计算资源利用率,彻底缓解了“解码器饥饿”现象,在高并发环境下展现出卓越的吞吐量与响应效率。
随着自动驾驶技术的快速发展,数据协同、模型进化与软件迭代的深度融合正推动智能驾驶从“可用”迈向“可靠”。《AI进化论》第四期指出,面对“鬼探头”等复杂城市交通挑战,单一技术路径难以突破,唯有通过海量真实场景数据驱动模型持续优化,并结合高频软件更新实现系统闭环迭代,才能构建高鲁棒性的决策体系。当前,领先企业已实现每24小时一次的算法迭代频率,累计路测数据超百亿公里,显著提升城市自由行能力。未来,自动驾驶将依托多维度协同进化,在安全性与适应性上实现质的飞跃。
最近发表的一项研究显示,GPT-5与Gemini 2.5 Pro两款大型人工智能模型在国际天文学和天体物理学奥林匹克竞赛(IOAA)中表现卓越,达到金牌水平。该竞赛作为高难度科学赛事,被用作评估AI在复杂科学推理能力的重要基准。研究表明,这两个模型不仅能够准确理解天文学概念,还能高效解决涉及数学推导与物理建模的综合问题,展现出接近顶尖高中生的认知表现。这一成果标志着AI在科学教育与研究辅助领域的重大进展,为未来智能学习系统的发展提供了有力支持。
在NeurIPS 2025 Spotlight环节中,北京航空航天大学百晓团队联合Rawmantic AI、麦考瑞大学、RIKEN AIP及东京大学共同提出了一种创新的显式几何优化框架——GeoSVR(Geometric Sparse Voxel Reconstruction)。该方法专注于挖掘稀疏体素在三维表面重建中的潜力,通过精细化的几何优化策略,在几何准确性、细节还原和结构完整性方面显著优于现有方法。实验表明,相较于3DGS系列模型,GeoSVR在多个基准数据集上实现了更高的重建精度与计算效率,为复杂场景下的高质量三维重建提供了新的解决方案。
Meta公司最新研发的SAM 3.0版本“分割一切”技术在ICLR 2026会议上正式提交论文,标志着人工智能在语义分割领域迈入新阶段。该模型引入技能语义分割与概念提示机制,显著提升了图像理解的精度与灵活性,能够更高效地识别复杂场景中的对象与语义关系。作为第三代“分割一切”模型,SAM 3展现了在多模态应用中的巨大潜力,预计将在计算机视觉、自动驾驶及内容生成等领域引发行业热潮,成为AI技术发展的重要里程碑。
莫纳什大学的科学家近日宣布,他们成功利用金属有机框架(MOF)技术开发出一种超小型流体芯片,标志着微流体学领域的重大突破。该技术基于2023年诺贝尔化学奖获奖研究成果,通过精确调控纳米级孔道结构,实现了对微量液体的高效操控。这一创新不仅大幅缩小了芯片尺寸,还显著提升了检测灵敏度与反应效率,有望广泛应用于医疗诊断、环境监测和药物研发等领域。研究团队表示,此项成果为下一代微型化实验室系统奠定了技术基础,推动了微流控技术的实用化进程。
谷歌公司近期发布了名为Gemini 2.5 Computer Use的AI代理技术,标志着人工智能在计算机控制领域迈出了关键一步。该技术在理解和操作复杂用户界面方面实现了显著突破,能够更精准地响应用户指令并执行多步骤任务。作为新一代智能助手的基础,Gemini 2.5 Computer Use不仅提升了人机交互的效率,也为未来自动化办公、辅助技术等应用场景提供了广阔可能。随着技术的持续演进,人类与AI的协作方式将变得更加高效与智能化。
加州大学圣塔芭芭芭拉分校(UCSB)与圣克鲁兹分校(UCSC)的研究团队联合开发了一种名为EvoPresent的自我进化学术演讲智能体框架。该系统通过AI生成技术,不仅能够深入解析学术论文的核心内容,还能自动生成结构清晰、表达生动的演讲视频与配套幻灯片。EvoPresent采用自我进化机制,持续优化表达方式与视觉呈现,显著提升学术传播的效率与吸引力。这一创新为科研人员提供了高效的知识转化工具,推动了人工智能在教育与学术交流领域的深度应用。




