Emu3.5 是北京智源研究院（BAAI）推出的新一代多模态大模型，在架构层面做出了一个激进决策——不再区分视觉和语言的输入输出，而是通过统一的 token 序列进行处理。这种做法听起来简单，但一旦扩展到超过 10 万亿 token 规模的跨模态预训练，带来的语义一致性和生成流畅性，已经明显超过依赖模态适配器的传统多模态系统。

模型亮点

Emu3.5 在多个维度上刷新了业界对多模态生成的认知：

原生多模态输入输出（Native Multimodal I/O）：不再使用模态适配头，图文信息统一以 token 形式处理，让信息流通更高效。
统一世界建模（Unified World Modeling）：图像与语言的序列组成了“世界状态”，模型预测下一个状态，而不是单独预测文本或图像。这种机制类似一种世界模拟器，使得生成结果更加自然连贯。
Discrete Diffusion Adaptation（DiDA）加速机制：从串行生成改为双向并行预测，推理速度大约提升了 20 倍，且性能无明显损失。
超过 10 万亿异构 token 预训练：涵盖视频帧与字幕等结构化场景，让模型具备时空推理能力。

技术转变的意义

大多数多模态大模型仍把语言生成视为主任务，视觉仅作为辅助上下文。Emu3.5 反其道而行，采用彻底对等的模态融合做法，再通过 RL 强化生成质量。这种“非语言中心”式的训练思路，把多模态变成了均值对待的建模对象，不只改变了符号处理方式，更让视觉序列的语义权重抬升到了与文本并驾齐驱的高度。

以笔者测试的一个任务为例，在给出一段不完整的探险故事和模糊草图后，Emu3.5 能够生成一段配图详尽、逻辑通顺、视觉风格连贯的长篇故事序列。试图用传统的图像生成器（如 Stable Diffusion）补全这些画面则要通过大量提示词调优且需要每帧干预。

对开发者的意义

对于多模态应用开发者来说，Emu3.5 的全 token 化设计意味着可以统一处理文本到图像、图像到文本、甚至图文混合到图文混合的任务——这正是 Hugging Face 所定义的 Any-to-Any 扩展能力。

目前模型参数规模为 34B，可在 Hugging Face 上直接使用：https://huggingface.co/BAAI/Emu3.5，支持多 GPU 推理，同时提供推理代码、配置和可视化脚本。

未来，随着图像解码模块进一步加强、DiDA 优化落地，Emu3.5 有望成为跨越“世界建模”到“世界操控”的关键一步。

Emu3.5 原生多模态开启世界学习新纪元

模型亮点

技术转变的意义

对开发者的意义

准备好开始您的 AI 之旅了吗？

公司地址

邮箱

支持

公司