小红书开源 FireRed-OCR:20 亿参数轻量模型登顶文档解析榜单

2026年3月4日
"小红书开源 FireRed-OCR 轻量模型,20 亿参数登顶文档解析权威榜单"
Shiyuh
Shiyuh
技术传道者/AI 应用落地

小红书超级智能团队近日正式开源文档解析模型 FireRed-OCR。该模型仅 20 亿参数,在权威基准 OmniDocBench v1.5 端到端方案中以 92.94% 综合得分位列第一,性能超越 Gemini 3.0 Pro、DeepSeek-OCR 2 及 2350 亿参数的 Qwen3-VL。模型已在 ModelScope 平台开放下载与体验,采用 Apache 2.0 协议,代码与权重均可商用。

模型地址:https://modelscope.cn/models/FireRedTeam/FireRed-OCR 在线体验:https://www.modelscope.cn/studios/FireRedTeam/FireRed-OCR GitHub 仓库:github.com/FireRedTeam/FireRed-OCR 技术报告:https://github.com/FireRedTeam/FireRed-OCR/blob/main/assets/FireRed_OCR_Technical_Report.pdf

01 它解决了什么问题?

文档数字化是 AI 落地的关键环节,但通用视觉语言模型在处理复杂文档时普遍存在“结构幻觉”问题:表格行列错乱、数学公式符号错误、多栏文本阅读顺序混乱等。这源于通用模型侧重语义生成,缺乏对文档空间结构的像素级约束能力。FireRed-OCR 的核心目标,即是将通用模型转化为具备严格格式感知能力的“结构工程师”。

技术实现上,团队设计了三阶段渐进式训练框架。初始阶段进行多任务预对齐,建立视觉空间感知基础,涵盖目标检测、区域识别与版面到 Markdown 的映射能力。进阶阶段在高质量 Markdown 数据集上开展专项监督微调,统一输出逻辑与层级表达规范。核心阶段引入格式约束强化学习(Format-Constrained GRPO),为每次生成结果设置四维奖励机制:公式语法合法性、表格结构完整性、Markdown 标签闭合性、字符级识别准确率,使模型在训练中内化“格式守则”。

02 核心技术:三阶段渐进式训练

配套的数据引擎同样关键。团队构建“几何 + 语义”数据工厂,通过几何特征聚类与多维度标注合成均衡训练集,针对性增强长尾版式(如嵌套表格、非常规多栏)的数据覆盖,有效缓解真实文档分布不均问题。

在 OmniDocBench v1.5 测试中,FireRed-OCR-2B 以 92.94% 位居端到端方案榜首;文字识别单项(OCRBench TextRec)得分 93.5,超越 GPT-5.2 与 Gemini 3.0 Pro。在团队自建的复杂版式压力测试集 FireRedBench 上,模型以 74.62 分领先多数端到端方案,较基座模型 Qwen3-VL-2B-Instruct(65.58 分)提升显著。需注意,PaddleOCR-VL-1.5 等流水线方案因采用多模型串联,在标准测试中分数略高,但部署与维护成本显著增加。

模型基于 Qwen3-VL 架构,接入流程简洁。安装依赖后,通过数行代码即可完成推理,输出标准 Markdown 格式文本,无缝对接 RAG、知识库等下游系统。硬件方面,bfloat16 精度下显存占用约 4 至 5GB,RTX 3090 或 A10 单卡即可流畅运行;建议开启 flash_attention_2 优化吞吐。实际部署中需注意:输入图像建议不低于 150 DPI;学术类长文档建议 max_new_tokens 设为 8192;对表格与公式精度要求极高的场景,可启用格式强化参数。

03 模型效果

适用场景聚焦结构完整性要求高的任务:学术论文(含复杂数学公式)、财务报表、技术手册、多栏排版书籍扫描件等。若业务侧重极致精度且具备多模型运维能力,可评估流水线方案;若追求部署简易性、维护成本低与复杂版式鲁棒性,FireRed-OCR 是当前端到端方案中的优选。

FireRed-OCR 的突破在于证明:垂直领域任务无需盲目堆叠参数。通过训练框架创新(三阶段流程 + 格式约束强化学习 + 高质量数据引擎),轻量模型亦可实现专业级性能。这一思路为行业提供重要启示——在特定任务上,精准的专项优化远比扩大模型规模更具工程价值与落地意义。开源不仅降低技术使用门槛,更推动文档智能领域向高效、可靠、可复现的方向演进。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管