多模态终于进化到能读文档了
Hugging Face 带来了 Idefics3,一个重新定义视觉语言理解边界的开源模型。它不仅支持图文混合输入,更重要的是在文件分析和视觉推理场景中性能大幅跃升,让人第一次感到多模态模型真的有现实可用性。
Idefics3 的前身 Idefics2 就已经是 Hugging Face 多模态序列上不容忽视的一步,而 Idefics3 在其基础上重构了视觉编码逻辑,对图像进行更细致的分块编码(每张图被划分为多个 size 为 364×364 的子图,共获取 169 个视觉 token),进而提升文档阅读和 OCR 输入的理解能力。
文档理解能力格外亮眼
从 DocVQA 测试数据来看,Idefics3-8B 的得分高达 87.7,几乎碾压前代 Idefics2(仅为 74.0)。这并非简单的视觉问答能力提升,而是模型对位置、层级、文本结构的综合理解能力全方位增强。
这得益于其训练数据集的优化,不仅继承了 The Cauldron,还加入了专为文档场景设计的 Docmatix 数据,真实文档图像从发票到网页均被涵盖,极大提升泛化能力。
模型更像“多模态语言模型”
传统多模态模型往往通过描述图像或回答图片问题的方式来工作,而 Idefics3 摆脱了图片为主、文本为辅的限制,真正做到了图文交错的长程推理。用户可任意组合图像与文本输入,模型依然能够保持上下文连贯并给出逻辑推理结果。
Hugging Face 在 post-training 阶段只采用了传统监督微调,未进行 RLHF。因此对话效果可能不会像 ChatGPT 那般自然流畅,但模型对任务意图的捕捉更“原教旨”,在“工具箱”使用上提供了更多可能性,尤其适合开发者进一步精调。
反直觉启示:图片并非越清晰越好
不少开发者在测试时发现调整图片分辨率并不总是提升效果。原因在于 Idefics3 的视觉编码器会将图像以计算资源敏感的策略转化为视觉 token。实际上,将图像分辨率控在默认的 N=4(即最长边为 1456)能在精度与速度之间取得更稳定表现。
想要更快的响应速度,也可通过将模型部署在 bfloat16 或添加 Flash-attention 2 优化生成效率——这在 Hugging Face 的 Transformers >4.46 中已原生支持。
实用入门资源
-
模型地址:Hugging FaceM4/Idefics3-8B-Llama3
-
精调教程(含代码):
https://github.com/merveenoyan/smol-vision/blob/main/Idefics_FT.ipynb
-
数据集集合 The Cauldron:
虽然它目前还不支持图像生成,但作为开放的多模态语言生成工具,Idefics3 为构建基于图文结合的智能对话系统、AI 协作视觉理解助手提供了优秀起点。未来如能配合 RLHF 或更强语义链建模,将具备挑战 Gemini 类产品的潜力。