GLM-4.6V 是智谱 AI 最新发布的多模态大模型，兼具高性能与实用性，彻底刷新了对视觉语言模型的期待。

模型架构与亮点

GLM-4.6V 系列包括两个版本：GLM-4.6V（106B）面向云端与大集群，GLM-4.6V-Flash（9B）则为本地场景精细裁剪，适配桌面助手与边缘部署。二者都具备长上下文处理能力，最大支持 128K token 输入，在视觉理解任务中实现同规模领先表现。

但真正令人惊喜的，是它首次引入的原生 Function Calling。直接在图像与工具之间打通流程，例如用户发送表格截图，GLM-4.6V 理解结构后立刻调用分析工具生成报表。这种从感知到执行的链路打通，不再依赖复杂代码集成，大大缩短 AI 落地周期。

原生图文交错能力

不仅仅是“看懂图片”，GLM-4.6V 能生成高质量图文混排内容。例如输入一段产品介绍和几张产品实拍图，它可以识别核心卖点，调用图像搜索自动补图，再输出一篇图文并茂的电商文案，真正具备视觉调用与生成的闭环。

更重要的是，生成过程支持在图文间自由跳转、合理衔接，而非像传统模型只会在文末拼接图片链接。这意味着它不仅看得懂，还“会讲解”。

GLM-4.6V 对长文档的处理能力极其强悍，不需要格式转换就能读取图表混排的扫描文档。不仅识别文本内容，还能理解图表间的逻辑关系。测试中，它可直接根据多页 PDF 的图形与注释输出精准摘要，相比只读纯文本的模型更具真实应用价值。

这种直接处理格式化视觉文档的能力，已经在企业数据治理、法务审查等场景中试点应用。它像是一个多模态的“结构化理解器”，而不只是描述图片的聊天机器人。

GLM-4.6V 延续 GLM 系列对开发者极为友好的传统。官方提供 Transformers 与 vLLM 接入方式，并推荐 SGLang 作为视频与复杂视觉应用的后端引擎。基础安装如下：

pip install sglang>=0.5.6.post1
pip install vllm>=0.12.0

快速接入代码也极为清晰，开箱即用，资源详见 GitHub：

更多展示与测试，可参考 Hugging Face Demo：

很多人以为 Function Calling 是自然语言模型才该具备的特性，而视觉模型用来分类和生成图像就够了。但 GLM-4.6V 证明了：真正实用的多模态 AI，是能“从图片出发做决策”。它不再是图像处理附庸于文本，而是将视觉本身纳入智能体链路，构建出了真实世界的决策代理。

传统文生图、图生文模型善于内容生成，但在商业落地中往往缺少交互深度和流程接入。GLM-4.6V 首次示范了图文共驱任务的闭环执行能力，为 Agent 构建提供了技术底座，也让多模态从“好玩”变得“实用”。