Emu3.5 原生多模态开启世界学习新纪元

2025年11月13日
"Emu3.5 用统一 token 机制重塑多模态生成逻辑,实现图文并重的世界建模方案"
Amoorzheyu
Amoorzheyu
增长负责人/Agent 开发者

Emu3.5 是北京智源研究院(BAAI)推出的新一代多模态大模型,在架构层面做出了一个激进决策——不再区分视觉和语言的输入输出,而是通过统一的 token 序列进行处理。这种做法听起来简单,但一旦扩展到超过 10 万亿 token 规模的跨模态预训练,带来的语义一致性和生成流畅性,已经明显超过依赖模态适配器的传统多模态系统。

模型亮点

Emu3.5 在多个维度上刷新了业界对多模态生成的认知:

技术转变的意义

大多数多模态大模型仍把语言生成视为主任务,视觉仅作为辅助上下文。Emu3.5 反其道而行,采用彻底对等的模态融合做法,再通过 RL 强化生成质量。这种“非语言中心”式的训练思路,把多模态变成了均值对待的建模对象,不只改变了符号处理方式,更让视觉序列的语义权重抬升到了与文本并驾齐驱的高度。

以笔者测试的一个任务为例,在给出一段不完整的探险故事和模糊草图后,Emu3.5 能够生成一段配图详尽、逻辑通顺、视觉风格连贯的长篇故事序列。试图用传统的图像生成器(如 Stable Diffusion)补全这些画面则要通过大量提示词调优且需要每帧干预。

对开发者的意义

对于多模态应用开发者来说,Emu3.5 的全 token 化设计意味着可以统一处理文本到图像、图像到文本、甚至图文混合到图文混合的任务——这正是 Hugging Face 所定义的 Any-to-Any 扩展能力。

目前模型参数规模为 34B,可在 Hugging Face 上直接使用:https://huggingface.co/BAAI/Emu3.5,支持多 GPU 推理,同时提供推理代码、配置和可视化脚本。

未来,随着图像解码模块进一步加强、DiDA 优化落地,Emu3.5 有望成为跨越“世界建模”到“世界操控”的关键一步。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管