智谱 GLM-4.1V-9B 思维模式 VLM 来了

2025年9月5日

智谱 AI 最近开源了 GLM-4.1V-9B-Thinking,这是一个 90 亿参数的视觉语言模型,它在复杂推理任务上的表现令人惊艳,某些方面甚至超越了参数量大它近八倍的 720 亿级模型,这无疑是多模态领域一个值得深思的突破。

小模型为何能超越大模型

长期以来,我们普遍认为模型参数量越大,能力就越强。然而,GLM-4.1V-9B-Thinking 的出现正在改写这一认知。这款由智谱 AI(THUDM)推出的新模型,通过引入独特的思维范式并结合强化学习进行训练,显著提升了自身的推理能力。我的观察是,这种思维训练让模型不再仅仅是信息的感知者,而开始成为一个真正的思考者。它不仅在数学等特定领域表现突出,在多项综合基准测试中也取得了压倒性优势。

具体来看,GLM-4.1V-9B-Thinking 在 28 个基准任务中,有 23 个取得了 100 亿参数级别模型的最佳成绩,更令人振奋的是,它在 18 个任务上甚至超越了目前行业领先的 720 亿参数模型 Qwen-2.5-VL-72B。这说明,对于高阶推理任务,架构创新和精细的训练策略,其重要性有时可以超越单纯的参数规模。

多模态能力的新标杆

除了强大的推理能力,GLM-4.1V-9B-Thinking 还在多模态处理上树立了新标准。它支持长达 64K 的上下文长度,这意味着模型可以理解并处理更复杂、更连贯的视觉和文本信息。同时,它能处理任意宽高比和高达 4K 分辨率的图像,这对于需要精确细节分析的应用场景至关重要。作为一款双语模型,GLM-4.1V-9B-Thinking 原生支持中文和英文,极大拓宽了其应用范围。智谱 AI 还同步开源了基础模型 GLM-4.1V-9B-Base,鼓励社区在此基础上进一步探索 VLM 的能力边界。

立即体验与探索

对于开发者和 AI 爱好者,智谱 AI 提供了便捷的体验渠道。

你可以在 Hugging Face 或 ModelScope 平台上找到在线演示

Hugging Face 链接:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

ModelScope 链接:https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

如果你想深入代码,项目的 GitHub 仓库 https://github.com/THUDM/GLM-4.1V-Thinking 提供了详细的快速推理教程和更多开发资源。现在就去体验一下这个以思考为核心的 VLM 吧。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管