最近，我被 Hugging Face 热门榜上的一篇论文深深吸引，那就是昨天刚刚发布的 OmniHuman-1.5。它不只是生成逼真视频，更是由 OmniHuman Lab 团队让数字人第一次拥有了思考能力，能根据情境做出有意义的动态反应。这和以往那些被动回应输入的系统，有着本质区别。

OmniHuman-1.5 究竟是什么

简单来说，OmniHuman-1.5 是一个能从一张图片和一段音频输入，生成富有表现力角色动画的系统。这些动画不仅与语音的节奏、语调和语义内容高度一致，还能通过可选的文本提示进一步细化。最令人惊叹的是，它能生成超过一分钟的动态视频，包含连续的镜头运动和复杂的多角色互动场景。核心在于，它将思考融入了数字人的行为逻辑。

核心技术双系统认知框架

OmniHuman-1.5 的设计灵感来源于大脑的系统 1 与系统 2 认知理论。这是一种巧妙的架构融合，它结合了多模态大语言模型（Multimodal Large Language Model）和扩散变换器（Diffusion Transformer），模拟了人类两种不同的思维模式：慢速、深思熟虑的规划（System 2）和快速、直观的反应（System 1）。

具体来说：

系统 2：负责从音频、参考图像和文本输入中提取高层信息，进行情境分析和行为规划，制定出角色在时间轴上的日程表。
系统 1：根据系统 2 的规划，通过文本、音频和视频三个分支，渲染出最终的视频。所有分支共享注意力机制，确保信号准确对齐。

为了让这个双系统框架稳定运行，OmniHuman-1.5 还引入了两项关键技术创新：

伪最后一帧技术：有效解决了视频生成中常见的角色身份漂移问题，确保角色在长时间动画中始终保持一致性，表情和动作自然流畅。
多模态预热机制：平衡了不同输入模态（如音频、文本）的影响力，防止单一模态主导生成结果，让数字人的表现更加协调。

不止是动起来更是想起来

与市面上许多专注于局部动作或面部表情的系统不同，OmniHuman-1.5 更强调生成动作的意义和情境感知。从官方演示来看，它能够：

制作多角色互动场景，让数字人之间产生有逻辑的交流。
实现富有表现力的肖像动画，不仅仅是唇形同步，更包含眼神和面部微表情。
生成全身动态动作，肢体语言与语音内容和情感高度匹配。
做出情境感知的姿态，例如在特定情境下，数字人能做出符合语境的特定手势。
展现情绪丰富的虚拟形象，让观众能感受到数字人的喜怒哀乐。

在我看来，这种有意义的行动是它最大的亮点。以往很多数字人只是对输入的反应，就像一个精密的提线木偶。而 OmniHuman-1.5 的数字人则表现出思考后的行动，它们似乎理解了背后的语义和意图，从而生成更具说服力和代入感的行为。在全身体动画的表现上，它在表达性（HKV 分数）和局部连贯性上都展现出强大的竞争力。

我的一些思考

OmniHuman-1.5 的出现，标志着 AI 数字人领域的一个重要转折点。过去我们更多地关注生成图像的真实感、视频的流畅度，但数字人的心智一直是个空白。这项研究反直觉地告诉我们，在追求视觉逼真的同时，融入更高层次的认知模拟，反而能解决长期困扰视频生成领域的一些核心问题，比如长时间视频的连贯性、复杂场景的互动性。

伪最后一帧技术看起来很技术化，但它解决了数字人我是谁这个哲学问题在视频生成中的具象化难题，确保了数字人身份的稳定。而双系统的架构，则让数字人从被动的复读机变成了能够理解语境、规划行为的思考者。这意味着未来我们看到的 AI 数字人，将不再仅仅是会说话的头像，它们可能在虚拟世界中扮演更具深度和能动性的角色，无论是虚拟客服、教学助手，还是游戏 NPC，都会变得更加生动和具有生命力。

常见问题

问：OmniHuman-1.5 与其他数字人系统有何不同？

答：关键在于它整合了深思熟虑的推理（系统 2）和直观的渲染（系统 1），创造出能思考的虚拟形象，而非仅仅对输入做出即时反应。

问：伪最后一帧技术如何确保身份一致性？

答：这项技术通过保留前一帧的参考信息，在允许自然运动和表情变化的同时，有效地保持角色在整个视频序列中的身份一致性。

问：系统能同时处理多种输入吗？

答：是的，多模态扩散变换器同时处理音频、图像和文本输入，并通过共享注意力机制确保所有信号都适当贡献于最终输出。

问：生成视频的时长限制是多久？

答：系统能够生成超过一分钟的视频，并支持高度动态的运动、连续的镜头移动和复杂的多角色互动。

AI 数字人学会思考不再只是复读机

OmniHuman-1.5 究竟是什么

核心技术双系统认知框架

不止是动起来更是想起来

我的一些思考

常见问题

准备好开始您的 AI 之旅了吗？

公司地址

邮箱

支持

公司

AI 数字人学会思考不再只是复读机

OmniHuman-1.5 究竟是什么

核心技术 双系统认知框架

不止是动起来 更是想起来

我的一些思考

常见问题

准备好开始您的 AI 之旅了吗？

公司地址

邮箱

支持

公司

核心技术双系统认知框架

不止是动起来更是想起来