近日,CMU助理教授、Cartesia AI首席科学家Albert Gu在其博客中提出了一种颠覆性观点,挑战了当前AI架构的主流认知。他深入探讨了状态空间模型(SSM)与Transformer之间的权衡,并明确指出了Transformer在处理复杂任务中的深层缺陷。文章标题为《Tokens是胡扯》,迅速引发了学术界和工业界的广泛关注。Gu认为,将信息分割为Tokens的方式限制了模型对全局上下文的理解能力,而状态空间模型则提供了一种更具潜力的替代方案。
2025年,MambaVision公司推出了一项突破性技术,将Mamba算法与Transformer模型融合,构建出一种新型视觉骨干网络。该网络首次结合状态空间模型(SSM)和自注意力机制,显著提升了图像分类、检测及分割任务的准确率与效率,实现了性能与速度的双重突破,为视觉技术领域树立了新标杆。
状态空间模型(SSM)与扩散模型的结合开创了视频世界模型的新纪元。这种融合不仅提升了模型对动态系统的学习能力,还为复杂场景生成提供了更高效的解决方案。通过SSM的精确状态估计与扩散模型的强大生成能力相结合,新一代视频世界模型能够更真实地模拟和预测现实世界的动态变化,标志着世界模型发展的重要里程碑。
状态空间模型(SSM)与扩散模型的全新融合,开创了视频世界模型的新纪元。这一结合不仅推动了世界模型的发展,还为视频生成技术提供了更广阔的想象空间。通过将SSM的动态系统特性与扩散模型的强大生成能力相结合,新模型能够更精确地捕捉和再现复杂场景,为虚拟现实、影视制作等领域带来革命性变化。