技术博客

AI视频生成新篇章:字节跳动Phantom技术引领行业革新

字节跳动公司近期在AI视频生成领域取得重大突破,提出了一种名为Phantom的新方法。该方法通过跨模态对齐技术,基于文本、图像和视频三元组学习,实现了主体一致的高质量视频生成。Phantom重新设计了联合文本-图像注入机制,并引入动态特征集成技术,在单/多主体视频生成及人脸ID保持任务中表现出色,其性能在定量评估中超越了现有商业级解决方案。

AI视频生成跨模态对齐Phantom方法文本图像注入动态特征集成
2025-05-06
AI视频生成技术革新:字节跳动Phantom方法的跨模态对齐解读

近日,字节跳动公司在AI视频生成领域取得重大进展,提出了一种名为Phantom的新型一致性视频生成方法。该方法通过跨模态对齐技术,重新设计了联合文本-图像注入模型,利用文本、图像和视频三元组数据实现精准对齐,从而生成主题一致的高质量视频内容。这一突破性技术为视频生成领域带来了广泛的应用前景,有望推动内容创作进入全新阶段。

AI视频生成跨模态对齐Phantom方法文本图像注入字节跳动技术
2025-04-28
探秘阿里达摩院mPLUG-Owl:引领多模态大语言模型的未来

阿里达摩院最新推出的多模态大语言模型mPLUG-Owl,基于先进的mPLUG模块化架构设计,不仅具备卓越的语言理解和推理能力,还能高效处理图像与视频等视觉信息,实现了文本与视觉信息之间的精准对齐,推动了跨模态感知技术的发展。

mPLUG-Owl多模态大语言模型阿里达摩院跨模态对齐
2024-10-11