Emu3.5 是北京智源研究院(BAAI)推出的新一代多模态大模型,在架构层面做出了一个激进决策——不再区分视觉和语言的输入输出,而是通过统一的 token 序列进行处理。这种做法听起来简单,但一旦扩展到超过 10 万亿 token 规模的跨模态预训练,带来的语义一致性和生成流畅性,已经明显超过依赖模态适配器的传统多模态系统。
模型亮点
Emu3.5 在多个维度上刷新了业界对多模态生成的认知:
- 原生多模态输入输出(Native Multimodal I/O):不再使用模态适配头,图文信息统一以 token 形式处理,让信息流通更高效。
- 统一世界建模(Unified World Modeling):图像与语言的序列组成了“世界状态”,模型预测下一个状态,而不是单独预测文本或图像。这种机制类似一种世界模拟器,使得生成结果更加自然连贯。
- Discrete Diffusion Adaptation(DiDA)加速机制:从串行生成改为双向并行预测,推理速度大约提升了 20 倍,且性能无明显损失。
- 超过 10 万亿异构 token 预训练:涵盖视频帧与字幕等结构化场景,让模型具备时空推理能力。
技术转变的意义
大多数多模态大模型仍把语言生成视为主任务,视觉仅作为辅助上下文。Emu3.5 反其道而行,采用彻底对等的模态融合做法,再通过 RL 强化生成质量。这种“非语言中心”式的训练思路,把多模态变成了均值对待的建模对象,不只改变了符号处理方式,更让视觉序列的语义权重抬升到了与文本并驾齐驱的高度。
以笔者测试的一个任务为例,在给出一段不完整的探险故事和模糊草图后,Emu3.5 能够生成一段配图详尽、逻辑通顺、视觉风格连贯的长篇故事序列。试图用传统的图像生成器(如 Stable Diffusion)补全这些画面则要通过大量提示词调优且需要每帧干预。
对开发者的意义
对于多模态应用开发者来说,Emu3.5 的全 token 化设计意味着可以统一处理文本到图像、图像到文本、甚至图文混合到图文混合的任务——这正是 Hugging Face 所定义的 Any-to-Any 扩展能力。
目前模型参数规模为 34B,可在 Hugging Face 上直接使用:https://huggingface.co/BAAI/Emu3.5,支持多 GPU 推理,同时提供推理代码、配置和可视化脚本。
未来,随着图像解码模块进一步加强、DiDA 优化落地,Emu3.5 有望成为跨越“世界建模”到“世界操控”的关键一步。