多模态终于进化到能读文档了

Hugging Face 带来了 Idefics3，一个重新定义视觉语言理解边界的开源模型。它不仅支持图文混合输入，更重要的是在文件分析和视觉推理场景中性能大幅跃升，让人第一次感到多模态模型真的有现实可用性。

Idefics3 的前身 Idefics2 就已经是 Hugging Face 多模态序列上不容忽视的一步，而 Idefics3 在其基础上重构了视觉编码逻辑，对图像进行更细致的分块编码（每张图被划分为多个 size 为 364×364 的子图，共获取 169 个视觉 token），进而提升文档阅读和 OCR 输入的理解能力。

文档理解能力格外亮眼

从 DocVQA 测试数据来看，Idefics3-8B 的得分高达 87.7，几乎碾压前代 Idefics2（仅为 74.0）。这并非简单的视觉问答能力提升，而是模型对位置、层级、文本结构的综合理解能力全方位增强。

这得益于其训练数据集的优化，不仅继承了 The Cauldron，还加入了专为文档场景设计的 Docmatix 数据，真实文档图像从发票到网页均被涵盖，极大提升泛化能力。

模型更像“多模态语言模型”

传统多模态模型往往通过描述图像或回答图片问题的方式来工作，而 Idefics3 摆脱了图片为主、文本为辅的限制，真正做到了图文交错的长程推理。用户可任意组合图像与文本输入，模型依然能够保持上下文连贯并给出逻辑推理结果。

Hugging Face 在 post-training 阶段只采用了传统监督微调，未进行 RLHF。因此对话效果可能不会像 ChatGPT 那般自然流畅，但模型对任务意图的捕捉更“原教旨”，在“工具箱”使用上提供了更多可能性，尤其适合开发者进一步精调。

反直觉启示：图片并非越清晰越好

不少开发者在测试时发现调整图片分辨率并不总是提升效果。原因在于 Idefics3 的视觉编码器会将图像以计算资源敏感的策略转化为视觉 token。实际上，将图像分辨率控在默认的 N=4（即最长边为 1456）能在精度与速度之间取得更稳定表现。

想要更快的响应速度，也可通过将模型部署在 bfloat16 或添加 Flash-attention 2 优化生成效率——这在 Hugging Face 的 Transformers >4.46 中已原生支持。

实用入门资源

模型地址：Hugging FaceM4/Idefics3-8B-Llama3

https://huggingface.co/HuggingFaceM4/Idefics3-8B-Llama3
精调教程（含代码）：

https://github.com/merveenoyan/smol-vision/blob/main/Idefics_FT.ipynb
数据集集合 The Cauldron：

https://huggingface.co/datasets/HuggingFaceM4/the_cauldron

虽然它目前还不支持图像生成，但作为开放的多模态语言生成工具，Idefics3 为构建基于图文结合的智能对话系统、AI 协作视觉理解助手提供了优秀起点。未来如能配合 RLHF 或更强语义链建模，将具备挑战 Gemini 类产品的潜力。

Idefics3 重塑多模态理解边界

多模态终于进化到能读文档了

文档理解能力格外亮眼

模型更像“多模态语言模型”

反直觉启示：图片并非越清晰越好

实用入门资源

准备好开始您的 AI 之旅了吗？

公司地址

邮箱

支持

公司