技术博客

创新边界:Inception Labs推出商业级大语言模型Mercury

Inception Labs 最近推出了一项突破性技术——基于扩散模型的商业级大语言模型 Mercury。这一创新打破了传统扩散模型仅适用于图像和视频生成的局限,首次将扩散模型应用于代码生成领域,并实现了比传统自回归模型快10倍的速度,同时保持高质量输出。Mercury 不仅能够编写代码,还能生成图像和视频,为内容创作和软件开发带来了全新的可能性。

扩散模型Mercury代码生成图像视频Inception
2025-07-11
CatV2TON:虚拟试穿的未来——创新扩散变换器框架解析

CatV2TON作为一种创新的扩散变换器框架,革新了在线购物体验,尤其在图像和视频的虚拟试穿任务中表现出色。用户可以轻松高效地体验虚拟试穿,大大提升了购物的便捷性和趣味性。这一技术不仅简化了购物流程,还为消费者提供了更加真实的购物感受,使在线购物变得更加互动和愉快。

扩散变换器虚拟试穿在线购物图像视频便捷趣味
2025-02-08
多模态大模型POINTS的探索与实践

本文探讨了多模态大模型POINTS中的NaViT模型。NaViT通过序列打包训练技术,能够处理不同分辨率和长宽比的输入数据,在大规模监督学习和对比图像文本预训练中展现了更高的训练效率。该模型不仅适用于图像和视频分类、目标检测及语义分割等任务,还在鲁棒性和公平性基准测试中取得了显著改进。

多模态模型NaViT模型序列打包图像视频鲁棒性改
2025-01-08
基于Transformer的行人重识别研究进展综述

本文综述了行人、车辆、动物等重识别(ReID)领域的最新研究进展,特别是基于Transformer方法的研究。武汉大学等机构的研究人员对基于Transformer的ReID研究进行了全面回顾和深入分析。他们将相关工作分为四个类别:图像/视频Re-ID、数据/标注受限的Re-ID、跨模态Re-ID以及特殊Re-ID场景。此外,研究者还提出了一个基于Transformer的基线模型UntransReID,并设计了动物Re-ID的标准化基准测试。这些工作为未来ReID领域的研究提供了新的参考手册。

Transformer重识别图像视频跨模态基准测试
2024-12-24