NVIDIA 震撼发布多模态 Nemotron Nano VL

2025年11月13日
"NVIDIA Nemotron Nano v2 12B VL 整合多图像、视频理解及文档智能,以端到端优化方案,引领多模态 AI 应用新趋势。"
Amoorzheyu
Amoorzheyu
增长负责人/Agent 开发者

NVIDIA 推出全新的 Nemotron Nano v2 12B VL 模型为多模态 AI 领域注入强劲动力。这款前沿模型由 NVIDIA 精心打造,旨在提供卓越的多图像推理、视频理解以及强大的文档智能处理能力,即日起便可用于商业部署。

核心亮点

Nemotron Nano v2 12B VL 最引人注目的特质在于其处理复杂信息的能力。它能够同时分析多达四张 1K x 2K 分辨率的图像,并结合超长文本提示进行推理。这使其在视觉问答、文档摘要等任务上表现出色,尤其在需要深度理解多页文档或复杂视觉内容时,展现出高效率和准确性。

模型对视频内容的理解也达到新高度,能从视频帧中提取并处理时序信息,实现更精细的视频问答与分析。这种将图像、视频与文本无缝融合的能力,预示着企业级文档处理和内容理解将迎来革命性变革。

技术细节

该模型采用 Transformer 架构,包含 12.6 亿参数,其视觉编码器为 CRadioV2-H,语言编码器则是 NVIDIA-Nemotron-Nano-12B-v2。这种精巧的设计确保了模型在处理复杂多模态输入时的高效性与性能。

部署与生态

Nemotron Nano v2 12B VL 已于 2025 年 10 月 28 日通过http://Build.Nvidia.com和 Hugging Face 平台发布,提供 BF16、FP8 和 NVFP4 等多种精度版本,方便开发者根据需求灵活选择。它原生支持 NVIDIA GPU 加速系统,可与 vLLM 和 TRT-LLM 等运行时引擎无缝集成,确保在 L40S、A100、H100/H200 以及最新的 B200、GB200 等硬件上实现最佳性能。

NVIDIA 作为硬件巨头,直接推出如此强大的应用层模型,体现了其在 AI 生态链中垂直整合的战略,旨在为用户提供从芯片到软件栈的端到端优化解决方案,这一举动无疑加速了 AI 技术在实际应用中的落地。

训练数据洞察

该模型的训练数据规模庞大且多样化,总计超过 3900 万样本,涵盖 270 个数据集,总大小达到 27.7TB。数据模态包括文本、图像和视频,且数据收集和标注方法采用自动化、人工与合成相结合的混合策略。值得关注的是,约 30% 的训练语料使用了商业许可模型进行语言翻译、标注重构及合成数据生成,尤其在链式思考(CoT)轨迹生成方面,显示出通过智能自动化手段高效扩充高质量训练数据的趋势。

这种对合成数据的重度依赖和通过其他强大模型进行数据增强的做法,反映了高质量、规模化多模态数据获取的挑战,以及业界为克服这些挑战所采取的创新策略。

性能评估

在多项关键基准测试中,Nemotron Nano v2 12B VL 展现了强劲性能。例如,在 MMMU 测试中得分 68,MathVista 中达到 76.9,DocVQA 更是高达 94.39。这些成绩表明模型在复杂文档理解、视觉推理及多模态问答方面具备顶尖水平。

实践入门

为了方便开发者快速上手,NVIDIA 提供了详尽的安装依赖和代码示例,涵盖单图像、多图像及视频推理场景,可直接在 Hugging Face 页面获取并运行。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管