Gen-Verse 最近推出了一款名叫 MMaDA-8B-Base 的新型多模态扩散基础模型,它不只专注于文本生成图像,更在文本推理和多模态理解上展现出令人惊艳的能力。这不仅仅是功能堆叠,更是一种底层架构上的统一尝试,预示着未来 AI 基础模型可能走向真正的万能之路。
核心技术亮点
MMaDA 之所以能够做到这一点,有三个关键创新:
统一的扩散架构
它采用了一种全新的、模态无关的扩散架构。这意味着无论面对文本、图像还是其他模态的数据,模型都能用一套共享的概率框架和设计来处理,彻底摆脱了为不同模态定制专属组件的繁琐。这种设计理念,让模型具备了前所未有的通用性。
混合长链式思考微调
MMaDA 引入了一种独特的混合长链式思考(CoT)微调策略。它精心策划,将不同模态下的复杂推理过程统一成一种连贯的 CoT 格式,让模型在进行多模态理解和推理时,能够像人类一样进行逐步思考,逻辑更加清晰严谨。
统一的强化学习算法 UniGRPO
为了进一步提升模型的性能,MMaDA 还开发了一种名为 UniGRPO 的统一策略梯度强化学习算法。这个算法专为扩散基础模型量身定制,它能利用多样化的奖励模型,同时对推理和生成任务进行统一的后期训练,从而在两者之间实现性能的协同提升。
我的思考
我们习惯了将扩散模型视为图像生成领域的明星,而大型语言模型则是文本推理的专家。MMaDA 的反直觉之处在于,它试图用一套统一的扩散框架,同时解决这两个看似独立的问题。这不仅仅是简单地将两种能力缝合在一起,而是从根本上重塑了我们对基础模型的认知。它暗示着未来 AI 模型可能不再是各自为战的专业选手,而是能用一套通用机制,处理从深度理解到创造性生成所有 AI 挑战的万能溶剂,真正模糊了感知与认知的界限。
模型详情与体验
目前,Gen-Verse 已经在 Hugging Face 上发布了 MMaDA-8B-Base,它拥有 8.08 亿参数,支持 BF16 精度,并且其设计目标是实现 Any-to-Any 的任意模态间转换。感兴趣的朋友可以查看以下链接,获取更多信息和体验:
论文地址:https://arxiv.org/abs/2505.15809
代码库:https://github.com/Gen-Verse/MMaDA