AI 数字人学会思考不再只是复读机

2025年9月24日
"OmniHuman-1.5 不只是让数字人动起来,而是让他们思考后再行动。这一次,虚拟角色第一次拥有了语境感知与逻辑反应的能力"
Amoorzheyu
Amoorzheyu
增长负责人/Agent 开发者

最近,我被 Hugging Face 热门榜上的一篇论文深深吸引,那就是昨天刚刚发布的 OmniHuman-1.5。它不只是生成逼真视频,更是由 OmniHuman Lab 团队让数字人第一次拥有了思考能力,能根据情境做出有意义的动态反应。这和以往那些被动回应输入的系统,有着本质区别。

OmniHuman-1.5 究竟是什么

简单来说,OmniHuman-1.5 是一个能从一张图片和一段音频输入,生成富有表现力角色动画的系统。这些动画不仅与语音的节奏、语调和语义内容高度一致,还能通过可选的文本提示进一步细化。最令人惊叹的是,它能生成超过一分钟的动态视频,包含连续的镜头运动和复杂的多角色互动场景。核心在于,它将思考融入了数字人的行为逻辑。

核心技术 双系统认知框架

OmniHuman-1.5 的设计灵感来源于大脑的系统 1 与系统 2 认知理论。这是一种巧妙的架构融合,它结合了多模态大语言模型(Multimodal Large Language Model)和扩散变换器(Diffusion Transformer),模拟了人类两种不同的思维模式:慢速、深思熟虑的规划(System 2)和快速、直观的反应(System 1)。

具体来说:

为了让这个双系统框架稳定运行,OmniHuman-1.5 还引入了两项关键技术创新:

不止是动起来 更是想起来

与市面上许多专注于局部动作或面部表情的系统不同,OmniHuman-1.5 更强调生成动作的意义和情境感知。从官方演示来看,它能够:

在我看来,这种有意义的行动是它最大的亮点。以往很多数字人只是对输入的反应,就像一个精密的提线木偶。而 OmniHuman-1.5 的数字人则表现出思考后的行动,它们似乎理解了背后的语义和意图,从而生成更具说服力和代入感的行为。在全身体动画的表现上,它在表达性(HKV 分数)和局部连贯性上都展现出强大的竞争力。

我的一些思考

OmniHuman-1.5 的出现,标志着 AI 数字人领域的一个重要转折点。过去我们更多地关注生成图像的真实感、视频的流畅度,但数字人的心智一直是个空白。这项研究反直觉地告诉我们,在追求视觉逼真的同时,融入更高层次的认知模拟,反而能解决长期困扰视频生成领域的一些核心问题,比如长时间视频的连贯性、复杂场景的互动性。

伪最后一帧技术看起来很技术化,但它解决了数字人我是谁这个哲学问题在视频生成中的具象化难题,确保了数字人身份的稳定。而双系统的架构,则让数字人从被动的复读机变成了能够理解语境、规划行为的思考者。这意味着未来我们看到的 AI 数字人,将不再仅仅是会说话的头像,它们可能在虚拟世界中扮演更具深度和能动性的角色,无论是虚拟客服、教学助手,还是游戏 NPC,都会变得更加生动和具有生命力。

常见问题

问:OmniHuman-1.5 与其他数字人系统有何不同?

答:关键在于它整合了深思熟虑的推理(系统 2)和直观的渲染(系统 1),创造出能思考的虚拟形象,而非仅仅对输入做出即时反应。

问:伪最后一帧技术如何确保身份一致性?

答:这项技术通过保留前一帧的参考信息,在允许自然运动和表情变化的同时,有效地保持角色在整个视频序列中的身份一致性。

问:系统能同时处理多种输入吗?

答:是的,多模态扩散变换器同时处理音频、图像和文本输入,并通过共享注意力机制确保所有信号都适当贡献于最终输出。

问:生成视频的时长限制是多久?

答:系统能够生成超过一分钟的视频,并支持高度动态的运动、连续的镜头移动和复杂的多角色互动。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管