Command A Vision 开启企业多模态新纪元

2025年10月9日
"CohereLabs 的 Command A Vision 是一款开源、专为企业优化的多模态 AI,在文档 OCR 和图像分析上表现卓越,其特定领域性能超越了众多通用大型模型,开启了企业级 AI 应用的新篇章。"
Amoorzheyu
Amoorzheyu
增长负责人/Agent 开发者

CohereLabs 近日发布了其旗舰级视觉语言模型 Command A Vision,这是一款拥有开放权重的尖端多模态 AI。该模型在继承 Command A 强大文本能力的基础上,实现了卓越的视觉任务性能,尤其针对企业级应用场景进行了深度优化。

专为企业打造的强大性能

Command A Vision 是一个 112B 的密集型模型,基于 Command A 架构构建,其权重已向社区开放,可在 Hugging Face 平台获取。这款模型旨在帮助企业自动化繁琐任务,从海量视觉数据中提取宝贵洞察,并支持基于数据的精准决策。无论是理解包含复杂图表的生产手册,还是分析现实世界图像进行风险检测,Command A Vision 都能出色应对严苛的企业视觉挑战。一个值得关注的见解是,Command A Vision 在特定企业级基准测试中的表现,甚至超越了一些市场上的通用大型模型,这表明开放权重模型在垂直领域的深度优化潜力巨大。

领先的多模态基准表现

在多项标准视觉基准测试中,Command A Vision 展现出领先的性能,超越了 GPT-4.1、Llama 4 Maverick、Mistral Medium 和 Pixtral Large 等知名模型。特别是在图表分析 ChartQA、文档信息提取 InfoVQA 和光学字符识别 OCRBench 等与企业应用紧密相关的领域,Command A Vision 表现突出,平均得分高达 83.1%。例如,在处理复杂图表和文档 OCR 方面,它远超竞争对手,证明了其在商业数据分析中的强大实用性。

精妙的训练与架构细节

Command A Vision 采用了 Llava 架构,通过一个 MLP 连接器将 SigLIP2-patch16-512 视觉编码器的视觉特征转化为(软)视觉 token。图像被分割成最多 12 个 512x512 像素的切片,并包含一个全局概览缩略图。这些特征经过处理后,被送入 Command A 文本塔,一个 111B 参数的文本大型语言模型。

模型训练分为三个阶段:首先是视觉语言对齐,此阶段视觉编码器和语言模型权重保持冻结,主要进行特征映射。其次是监督微调 SFT 阶段,此时视觉编码器、视觉适配器和语言模型会同步在多样化的多模态指令遵循任务上进行训练。通过多模态模型合并,平衡了数据混合中的各种专家,以适应不同的企业用例。最后,在后训练阶段,模型采用包括在线对比策略梯度 Contrastive Policy Gradient 在内的多种 RLHF 算法进行对齐,进一步提升性能并满足企业级安全需求。

企业级部署的效率与能力

Command A Vision 在设计之初就考虑了企业的核心需求,它保留了 Command A 的许多文本处理能力,并结合了高级检索增强生成 RAG 和多种关键商业语言的多语言性能。在部署效率方面,该模型表现出色,仅需两块 A100 GPU 或一块 H100 GPU 进行 4 位量化即可私有化部署。

开发者和 AI 爱好者可以通过 Hugging Face Space 或 Cohere 平台试用 Command A Vision。也可以通过安装 Transformers 库在本地运行模型,具体代码示例可在 CohereLabs/command-a-vision-07-2025 的 Hugging Face Hub 页面找到。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管