最近,我被 Hugging Face 热门榜上的一篇论文深深吸引,那就是昨天刚刚发布的 OmniHuman-1.5。它不只是生成逼真视频,更是由 OmniHuman Lab 团队让数字人第一次拥有了思考能力,能根据情境做出有意义的动态反应。这和以往那些被动回应输入的系统,有着本质区别。
OmniHuman-1.5 究竟是什么
简单来说,OmniHuman-1.5 是一个能从一张图片和一段音频输入,生成富有表现力角色动画的系统。这些动画不仅与语音的节奏、语调和语义内容高度一致,还能通过可选的文本提示进一步细化。最令人惊叹的是,它能生成超过一分钟的动态视频,包含连续的镜头运动和复杂的多角色互动场景。核心在于,它将思考融入了数字人的行为逻辑。
核心技术 双系统认知框架
OmniHuman-1.5 的设计灵感来源于大脑的系统 1 与系统 2 认知理论。这是一种巧妙的架构融合,它结合了多模态大语言模型(Multimodal Large Language Model)和扩散变换器(Diffusion Transformer),模拟了人类两种不同的思维模式:慢速、深思熟虑的规划(System 2)和快速、直观的反应(System 1)。
具体来说:
- 系统 2:负责从音频、参考图像和文本输入中提取高层信息,进行情境分析和行为规划,制定出角色在时间轴上的日程表。
- 系统 1:根据系统 2 的规划,通过文本、音频和视频三个分支,渲染出最终的视频。所有分支共享注意力机制,确保信号准确对齐。
为了让这个双系统框架稳定运行,OmniHuman-1.5 还引入了两项关键技术创新:
- 伪最后一帧技术:有效解决了视频生成中常见的角色身份漂移问题,确保角色在长时间动画中始终保持一致性,表情和动作自然流畅。
- 多模态预热机制:平衡了不同输入模态(如音频、文本)的影响力,防止单一模态主导生成结果,让数字人的表现更加协调。
不止是动起来 更是想起来

与市面上许多专注于局部动作或面部表情的系统不同,OmniHuman-1.5 更强调生成动作的意义和情境感知。从官方演示来看,它能够:
- 制作多角色互动场景,让数字人之间产生有逻辑的交流。
- 实现富有表现力的肖像动画,不仅仅是唇形同步,更包含眼神和面部微表情。
- 生成全身动态动作,肢体语言与语音内容和情感高度匹配。
- 做出情境感知的姿态,例如在特定情境下,数字人能做出符合语境的特定手势。
- 展现情绪丰富的虚拟形象,让观众能感受到数字人的喜怒哀乐。
在我看来,这种有意义的行动是它最大的亮点。以往很多数字人只是对输入的反应,就像一个精密的提线木偶。而 OmniHuman-1.5 的数字人则表现出思考后的行动,它们似乎理解了背后的语义和意图,从而生成更具说服力和代入感的行为。在全身体动画的表现上,它在表达性(HKV 分数)和局部连贯性上都展现出强大的竞争力。
我的一些思考
OmniHuman-1.5 的出现,标志着 AI 数字人领域的一个重要转折点。过去我们更多地关注生成图像的真实感、视频的流畅度,但数字人的心智一直是个空白。这项研究反直觉地告诉我们,在追求视觉逼真的同时,融入更高层次的认知模拟,反而能解决长期困扰视频生成领域的一些核心问题,比如长时间视频的连贯性、复杂场景的互动性。
伪最后一帧技术看起来很技术化,但它解决了数字人我是谁这个哲学问题在视频生成中的具象化难题,确保了数字人身份的稳定。而双系统的架构,则让数字人从被动的复读机变成了能够理解语境、规划行为的思考者。这意味着未来我们看到的 AI 数字人,将不再仅仅是会说话的头像,它们可能在虚拟世界中扮演更具深度和能动性的角色,无论是虚拟客服、教学助手,还是游戏 NPC,都会变得更加生动和具有生命力。
常见问题
问:OmniHuman-1.5 与其他数字人系统有何不同?
答:关键在于它整合了深思熟虑的推理(系统 2)和直观的渲染(系统 1),创造出能思考的虚拟形象,而非仅仅对输入做出即时反应。
问:伪最后一帧技术如何确保身份一致性?
答:这项技术通过保留前一帧的参考信息,在允许自然运动和表情变化的同时,有效地保持角色在整个视频序列中的身份一致性。
问:系统能同时处理多种输入吗?
答:是的,多模态扩散变换器同时处理音频、图像和文本输入,并通过共享注意力机制确保所有信号都适当贡献于最终输出。
问:生成视频的时长限制是多久?
答:系统能够生成超过一分钟的视频,并支持高度动态的运动、连续的镜头移动和复杂的多角色互动。