港大与Adobe联合开发的PixelFlow图像生成模型,开创性地在原始像素空间直接运行,无需依赖变分自编码器(VAE),即可实现端到端训练。这一系列模型突破了传统潜在空间模型的限制,直接在图像的原始像素层面进行操作,为图像生成技术提供了全新的解决方案。
近期,研究者Andrej Karpathy分享了一篇由Google DeepMind科学家Sander Dielman撰写的博客文章。文章聚焦生成模型,特别是图像、音频和视频生成模型,探讨了通过潜在空间优化生成效率与输出质量的方法。这种方法不仅提升了生成内容的精细度,还为未来跨模态生成技术的发展提供了新思路。
港科大最新研发的VideoVAE+是一种专为视频数据处理设计的深度学习生成模型。该模型能够高效地对视频进行压缩、重建和生成,通过将RGB像素空间映射到更低维度的潜在空间,显著提升了视频重建的质量。与现有模型相比,VideoVAE+在视频处理领域展现了卓越的性能,成为当前最先进的技术之一。
田渊栋团队的最新研究成果引起了广泛关注。他们在论文中提出了一种名为“连续思维链”(Coconut)的新范式,旨在探索大型语言模型(LLM)在潜在空间中的推理能力。与传统的自然语言推理方法不同,该研究不依赖自然语言,而是通过连续思维链来挖掘LLM在推理方面的潜力。这一创新方法为未来的人工智能研究开辟了新的方向。