IBM 推出 Granite Docling 258M 智能文档转换新标杆

2025年10月16日
"IBM 最新发布的 granite-docling-258M 模型以其紧凑设计和强大的多模态文档理解能力 重新定义了高效文档转换的标准。"
Amoorzheyu
Amoorzheyu
增长负责人/Agent 开发者

IBM Research 发布了 granite-docling-258M 模型 这是一款专为高效文档转换设计的图像文本到文本多模态模型 它在 Idefics3 架构基础上进行了关键改进 用 siglip2-base-patch16-512 替换了视觉编码器 并集成了更轻量的 Granite 165M 语言模型 这使得它在保持与DoclingDocuments兼容性的同时 实现了强大的文档理解能力。

核心亮点 增强文档理解

granite-docling-258M 不仅仅是尺寸的优化 它带来了多项革新功能 大大提升了文档处理的准确性和灵活性。

技术架构与训练

该模型的核心架构融合了 Google 的 siglip2-base-patch16-512 作为视觉编码器 利用 Idefics3 中的像素混洗投影仪连接视觉与语言部分 最后由 IBM 自研的 Granite 165M 大型语言模型进行文本生成。

granite-docling-258M 的训练使用了 Hugging Face 的 nanoVLM 框架 在 IBM 的 Blue Vela 超级计算集群上通过 NVIDIA H100 GPU 进行。训练数据来源广泛 包括 SynthCodeNet SynthFormulaNet SynthChartNet 和 DoclingMatix 等专业数据集。

实践应用

开发者可以通过Docling库轻松部署和使用 granite-docling-258M 模型 只需简单的命令行操作即可将 PDF 文档转换为 HTML 或 Markdown 格式。

此外该模型也完全集成到 Hugging Face Transformers vLLM ONNX 或 MLX 等主流框架中,提供了灵活的本地推理选项 为不同开发环境提供了便利。更多信息可查阅Hugging Face上的模型页面。

独家观察 专项模型的力量

在 AI 领域 模型尺寸往往被视为性能的决定因素 但 granite-docling-258M 的发布提供了一个反直觉的洞察。它以相对较小的 258M 参数量 在复杂的文档转换和结构化信息提取任务中展现出卓越的性能。

这表明通过高度专业化的架构设计和针对性训练 即使是紧凑型多模态模型也能在特定领域超越通用大模型的表现。这种专业化路线在资源受限的环境下或对特定任务有高性能要求的场景中 尤其具有价值 预示着未来 AI 发展的一个重要方向。

负责任的 AI

IBM Research 强调负责任的 AI 使用 建议将 granite-docling-258M 作为Docling库的一部分使用。模型可能存在的偏见 错误信息或幻觉风险是 IBM 关注的重点 并推荐配合 Granite Guardian 等工具来增强安全性和合规性。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管