全能型 AI 模型新标杆 Qwen2.5-Omni

2025年9月2日

阿里云通义千问团队最近又给我们带来惊喜,发布了他们的旗舰级端到端多模态模型 Qwen2.5-Omni。

这不仅仅是个模型,它更像一位全能选手,能看、能听、能说、能写,甚至还能实时互动,真正将 AI 的感知与表达融为一体。它预示着 AI 交互体验将迎来一次质的飞跃。

亮点速览

这款由阿里云通义千问团队开发的 Qwen2.5-Omni,最引人注目的能力在于,能够无缝处理文本、图像、音频、视频等多种复杂输入,并且通过文本生成和自然语音合成,实现 实时流式响应。

这意味着,你和 AI 的交流将变得像和真人对话一样自然流畅,AI 不再需要等待全部输入才能做出回应。

独特架构

Thinker–Talker 是 Qwen2.5-Omni 的核心设计思路:

Qwen2.5-Omni 采用了一个名为 Thinker-Talker 的创新架构。

你可以把 Thinker 想象成模型的大脑,它负责理解并处理各种模态的输入,无论是文字、图像还是声音视频,最终生成高级别的语义表示和对应的文本。而 Talker 就像是模型的嘴巴,它能够实时接收 Thinker 的输出,并将其流畅地转化为自然的语音。

这种端到端的协同工作,让整个模型成为一个高度整合的整体,实现了训练和推理的无缝衔接。此外,它还引入了 TMRoPE 这种新型位置编码,用于视频输入的时间同步,确保音视频的准确对齐。

性能强悍

在多模态整合任务(如 OmniBench)上,Qwen2.5-Omni 取得了 SOTA 级表现。面向单模态能力,它在语音识别、翻译、音频理解、图像推理、视频理解等多项任务上同样表现出色。

与同等规模的单模态模型(如 Qwen2.5-VL-7B、Qwen2-Audio)横向比较:

Qwen2.5-Omni 的性能表现让人印象深刻。在多模态整合任务比如 OmniBench 上,它取得了领先的 SOTA 表现。即便在单一模态任务中,它也在语音识别、翻译、音频理解、图像推理和视频理解等多个领域展现出卓越能力。与同等规模的单模态模型如 Qwen2.5-VL-7B 和 Qwen2-Audio 相比,Qwen2.5-Omni 在音频能力上甚至超越了后者,并且图像理解能力也达到了同等水平。它对语音指令的遵循能力也与文本输入相当,真正做到了言出即行。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管