多模态扩散模型 MMaDA 打破边界

2025年9月25日
"MMaDA-8B-Base 尝试用一套统一的扩散框架,打破图像与文本、生成与推理的边界,预示着 AI 正在走向真正的万能模型时代"
Amoorzheyu
Amoorzheyu
增长负责人/Agent 开发者

Gen-Verse 最近推出了一款名叫 MMaDA-8B-Base 的新型多模态扩散基础模型,它不只专注于文本生成图像,更在文本推理和多模态理解上展现出令人惊艳的能力。这不仅仅是功能堆叠,更是一种底层架构上的统一尝试,预示着未来 AI 基础模型可能走向真正的万能之路。

核心技术亮点

MMaDA 之所以能够做到这一点,有三个关键创新:

统一的扩散架构

它采用了一种全新的、模态无关的扩散架构。这意味着无论面对文本、图像还是其他模态的数据,模型都能用一套共享的概率框架和设计来处理,彻底摆脱了为不同模态定制专属组件的繁琐。这种设计理念,让模型具备了前所未有的通用性。

混合长链式思考微调

MMaDA 引入了一种独特的混合长链式思考(CoT)微调策略。它精心策划,将不同模态下的复杂推理过程统一成一种连贯的 CoT 格式,让模型在进行多模态理解和推理时,能够像人类一样进行逐步思考,逻辑更加清晰严谨。

统一的强化学习算法 UniGRPO

为了进一步提升模型的性能,MMaDA 还开发了一种名为 UniGRPO 的统一策略梯度强化学习算法。这个算法专为扩散基础模型量身定制,它能利用多样化的奖励模型,同时对推理和生成任务进行统一的后期训练,从而在两者之间实现性能的协同提升。

我的思考

我们习惯了将扩散模型视为图像生成领域的明星,而大型语言模型则是文本推理的专家。MMaDA 的反直觉之处在于,它试图用一套统一的扩散框架,同时解决这两个看似独立的问题。这不仅仅是简单地将两种能力缝合在一起,而是从根本上重塑了我们对基础模型的认知。它暗示着未来 AI 模型可能不再是各自为战的专业选手,而是能用一套通用机制,处理从深度理解到创造性生成所有 AI 挑战的万能溶剂,真正模糊了感知与认知的界限。

模型详情与体验

目前,Gen-Verse 已经在 Hugging Face 上发布了 MMaDA-8B-Base,它拥有 8.08 亿参数,支持 BF16 精度,并且其设计目标是实现 Any-to-Any 的任意模态间转换。感兴趣的朋友可以查看以下链接,获取更多信息和体验:

论文地址:https://arxiv.org/abs/2505.15809

代码库:https://github.com/Gen-Verse/MMaDA

在线 Demo: https://huggingface.co/spaces/Gen-Verse/MMaDA

模型卡片:https://huggingface.co/Gen-Verse/MMaDA-8B-Base

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管