技术博客

《AICon会议上达摩院的突破:多模态生成模型推理加速》

阿里巴巴达摩院视觉技术实验室负责人唐家声,将在北京举办的AICon会议上发表演讲。其演讲主题为《Dynamic DiT:探索多模态生成模型推理加速》,重点分享多模态生成模型在动态加速领域的最新研究成果,助力提升模型推理效率与性能。

多模态生成模型推理达摩院AICon会议动态加速
2025-05-26
华为Selftok技术:开启图像分词器新纪元

华为盘古多模态生成团队通过Selftok技术实现了图像分词器的创新突破。该技术结合自回归内核与扩散模型,使图像具备自主像素推理能力。团队提出重构现有token化方法的新思路,旨在让图像理解和生成技术模仿语言模型(LLM)的成功,推动视觉领域向更智能化方向发展。

Selftok技术图像分词器像素推理多模态生成视觉LLM
2025-05-19
走进R1时代:港中文MMLab的AI绘画革新

近日,港中文MMLab推出了一项突破性的AI绘画技术——T2I-R1,标志着文生图进入R1时代。该技术采用“先推理再下笔”的创新方式,通过链式思维(CoT)显著提升了图像生成的效率与质量。T2I-R1不仅提供了一个高效且可扩展的生成架构,还为多模态生成任务开创了新的推理增强范式,推动了AI艺术创作领域的发展。

文生图R1时代港中文MMLabAI绘画技术链式思维CoT多模态生成
2025-05-13
复旦大学与腾讯优图联手,多模态生成框架实现新突破

复旦大学与腾讯优图联合研发的多模态生成框架取得了新的最佳状态(SOTA)。该框架可灵活组合文本、空间和图像数据,为可控生成技术带来突破。为支持这一技术发展,团队发布了包含超过20万条数据的SubjectSpatial200K数据集,解决了公开数据集中缺乏多条件生成模型训练与测试资源的问题,并已开源。研究团队相信,这项工作将显著推动可控生成技术的进步。

多模态生成复旦大学腾讯优图SubjectSpatial200K可控生成技术
2025-04-17
复旦大学与腾讯优图联手打造:多模态生成框架的开源创新之路

复旦大学与腾讯优图联合研发的多模态生成框架取得了新的突破,达到了最佳状态(SOTA)。该框架可灵活整合文本、空间和图像数据,并已开源超过20万条数据。其强大的任意条件组合处理能力,为AI领域的生成技术提供了全新解决方案。

多模态生成复旦大学腾讯优图开源数据AI技术
2025-04-16
MetaQuery方法:开启多模态生成新纪元

最新研究显示,谢赛宁团队联合Meta与纽约大学(NYU)提出了一种名为MetaQuery的新方法。该技术专注于多模态理解与生成的统一,使多模态模型无需微调大型语言模型(MLLM)即可获得高效生成能力,其效果媲美GPT-4o。MetaQuery以其实现过程的简洁性令人瞩目,为多模态技术发展提供了新思路。

MetaQuery方法多模态生成谢赛宁团队GPT-4o对比多模态理解
2025-04-13
iSVG模型:开启多模态SVG生成的开源新篇章

iSVG 是一款基于 Qwen2.5-VL 构建的开源多模态生成模型,专注于从文本和图像输入生成高质量的 SVG 文件。该模型不仅能够处理简单的图标设计,还支持复杂的动漫角色创作,为创意工作者提供了强大的技术支持。通过整合 SVG 标记化器,iSVG 实现了更灵活的多模态生成能力,成为设计师和开发者的理想工具。

iSVG模型开源工具多模态生成SVG文件Qwen2.5-VL
2025-04-10
Nvidia引领未来:Cosmos-Transfer1模型的突破与影响

Nvidia近期推出了名为Cosmos-Transfer1的自适应多模态“世界生成”模型。该模型可通过分割、深度和边缘等空间控制输入,生成高度逼真的模拟环境。这一技术突破为机器人与自动驾驶车辆的训练提供了全新平台,开发者可借此创建高度可控的世界模拟,从而优化并加速相关技术的训练进程。

Nvidia模型多模态生成模拟环境自动驾驶机器人训练
2025-03-24
大模型时代下的多模态生成与视觉理解挑战

近年来,随着大模型时代的到来,多模态生成与理解技术取得了显著进步。然而,如何使人工智能真正理解视觉信息,并与人类的审美和偏好保持一致,依然是一个关键挑战。尽管技术不断进步,AI在处理复杂视觉场景时仍存在局限性,特别是在捕捉人类细腻的情感和审美标准方面。未来的研究需要进一步探索如何让机器更好地理解并模仿人类的视觉认知过程。

大模型时代多模态生成视觉理解人工智能审美偏好
2025-03-17
「创新突破」Liquid框架:多模态生成的新纪元

华中科技大学、字节跳动和香港大学组成的联合研究团队提出了一种创新的多模态生成框架——“Liquid”。该框架旨在简化多模态数据的生成与理解过程,强调生成与理解之间的相互促进关系。通过这一框架,研究人员揭示了统一多模态模型的尺度规律,为未来的研究提供了新的视角和工具。

多模态生成Liquid框架华中科大字节跳动港大研究
2025-03-04
蛋白质设计领域的革新:ESM3模型的突破与应用

在蛋白质设计领域,ESM3模型的出现标志着科学创新的重要里程碑。作为一种先进的多模态生成语言模型,ESM3结构精巧,类似精确的分子机器,能够深入分析和推理蛋白质的序列、结构与功能等多维度信息,为蛋白质研究带来了全新的视角和工具。

蛋白质设计ESM3模型科学创新多模态生成分子机器
2025-02-04
昆仑天工SkyWork系列AIGC开源模型解析与应用

昆仑天工SkyWork系列AIGC开源模型,由奇点智源公司在2022年12月推出,是一款具备多模态内容生成能力的先进模型,能够处理图像、文本以及编程等多个领域的任务。其强大的功能覆盖了绘画创作、文章续写、智能对话系统构建、中英互译及不同风格内容的生成等,为用户提供了广泛的应用场景。

昆仑天工SkyWork系列AIGC模型多模态生成奇点智源
2024-10-11