技术博客

探索未来：SDAR混合扩散语言模型的创新与突破

上海人工智能实验室近日发布了全球首个开源的混合扩散语言模型SDAR（Synergistic Diffusion-AutoRegression），在生成效率上实现重大突破，推理速度高达6600 tgs（tokens per second）。该模型创新性地采用“训练-推理解耦”架构，融合自回归（AR）模型的高效训练优势与扩散模型的并行推理能力，显著提升解码速度。SDAR支持将任意自回归模型以极低成本转化为具备并行解码能力的模型，为大模型推理提供了高效、灵活的新范式，推动生成式AI技术的广泛应用与迭代。

SDAR扩散模型自回归并行解码开源

2025-11-01

算法革新：香港科技大学提出新型语言模型推理算法

香港科技大学提出了一种新型算法，有望彻底改变大型语言模型（LLM）的推理方式。该研究采用随机策略估值技术，显著提升了模型在数学推理任务中的表现。论文由博士生何浩然和一年级博士生叶语霄共同担任第一作者，其中何浩然专注于强化学习与基础模型的研究，致力于通过学习与奖励机制激发超级智能的潜力。通讯作者为香港科技大学电子及计算机工程系教授。这项工作为提升语言模型的逻辑推理能力提供了创新路径，推动人工智能向更高层次的智能迈进。

算法推理模型语言智能

2025-11-01

VIST框架：视觉优化开启长文本处理新篇章

在NeurIPS 2025会议上，南京理工大学、中南大学与南京林业大学联合发表了一项突破性研究成果——VIST（Vision-centric Token Compression in LLM）框架。该框架通过视觉中心化的token压缩方法，显著提升了大语言模型处理长文本的效率，实现内存使用量降低达50%，同时减少token需求高达56%。这一创新与近期备受关注的DeepSeek-OCR技术理念相呼应，为长文本的高效推理提供了全新的视觉优化路径，标志着语言模型在资源效率与计算可扩展性方面迈出了关键一步。

VIST框架视觉优化长文本内存减半NeurIPS

2025-11-01

字节跳动再创新：Game-TARS通用游戏智能体的突破与挑战

字节跳动近日发布了一款名为Game-TARS的通用游戏智能体，标志着其在人工智能领域的又一重大突破。该智能体基于统一且可扩展的键盘和鼠标动作空间，利用超过5000亿个token进行大规模预训练，展现出卓越的人机交互能力，甚至在操作精度上超越了GPT-5。通过融合5000亿多模态标注数据，结合稀疏推理与衰减持续损失技术，Game-TARS显著提升了泛化能力和系统可扩展性，能够灵活应用于操作系统、网页及多种模拟环境。这一进展为通用智能体的发展提供了新的技术路径。

智能体字节跳动Game-TARS多模态预训练

2025-11-01

AI热点

2026-03-15

Vite驱动的Next.js革命：AI一周完成框架替代

科技热点

Vite驱动的Next.js革命：AI一周完成框架替代