技术博客

倾听的艺术：UniLS框架如何重塑数字人对话体验

UniLS框架是一项面向数字人对话场景的创新技术，旨在突破长期存在的“倾听时表情僵硬”难题。该框架仅依赖双轨音频数据（即说话者与倾听者各自的语音流），即可实现端到端同步驱动数字人在说话与倾听两种状态下的面部动作，显著提升交互的自然感与沉浸感。其核心优势在于无需额外视觉标注或动作捕捉设备，大幅降低部署门槛，同时增强表情时序与语义的协同性。

UniLS框架数字人对话自然表情双轨音频端到端驱动

2026-04-24

UniLS框架：CVPR 2026引领数字人'说-听'新纪元

在CVPR 2026会议上，研究者正式发布了UniLS框架——首个端到端音频驱动的“说-听”统一面部动作生成模型。该框架突破传统语音驱动动画仅关注“说话”动作的局限，首次实现对说话时自然微表情、倾听反应（如点头、眨眼、眼神跟随）等交互性面部行为的联合建模与同步生成，在数字人对话领域刷新了多项基准测试的SOTA性能。

UniLS框架音频驱动数字人CVPR2026说听统一

2026-04-24

AI热点

2026-05-26

MCP与CLI：互补而非对立的Agent技术发展之路

科技热点

MCP与CLI：互补而非对立的Agent技术发展之路