FireRed-OCR – 小红书开源的轻量级文档结构解析视觉语言模型
FireRed-OCR是什么
FireRed-OCR 是小红书团队开源的轻量级文档结构解析视觉语言模型,以仅 2B 参数的规模在 OmniDocBench v1.5 权威评测中斩获 92.94% 综合得分,超越 GPT-5.2、Gemini-3.0 Pro 及 Qwen3-VL-235B 等超大模型,实现了”小模型击败大模型”的突破。模型基于 Qwen3-VL-2B-Instruct 架构,采用三阶段渐进式训练策略。FireRed-OCR 专为解决文档解析中的”结构幻觉”问题设计,能精准提取复杂表格、数学公式、层级标题等内容,转换为标准 Markdown 格式。

FireRed-OCR的主要功能
-
复杂表格提取:从杂乱 PDF 和扫描文档中精准识别并提取表格结构,保持行列对应关系,避免传统 OCR 常见的表格错乱问题。
-
数学公式解析:准确识别文档中的数学公式,转换为标准 LaTeX 或 Markdown 格式,确保公式语法有效性和可读性。
-
层级结构还原:智能识别文档中的标题层级(H1-H6)、段落缩进、列表符号等,生成符合规范的 Markdown 层级结构。
-
多格式文档转换:支持将 PDF、扫描图片、学术论文、财务报告等多种格式文档一键转换为结构化 Markdown 文本。
-
抗结构幻觉:通过 GRPO 强化学习优化,显著减少内容编造、行序错乱、层级混乱等常见文档解析错误。
-
多场景适配:适用于财务报告数字化、学术论文解析、合同文档结构化、书籍内容提取等专业场景。
-
轻量化部署:2B 参数规模,支持本地部署和 API 调用,降低算力成本,适合中小企业和个人开发者使用。
FireRed-OCR的技术原理
-
基础架构:基于 Qwen3-VL-2B-Instruct 多模态大模型构建,继承其强大的视觉理解和文本生成能力。
-
三阶段渐进式训练策略:
-
阶段1(多任务预对齐):同时训练区域检测、区域识别和布局转 Markdown 三个任务,建立模型对文档空间布局的感知能力。
-
阶段2(专项 SFT):在高质量、标准化的 Markdown 数据集上进行监督微调,确保输出逻辑一致性和层级表达准确性。
-
阶段3(格式约束 GRPO):应用 Group Relative Policy Optimization 强化学习算法,通过格式奖励机制优化输出质量。
-
-
四大奖励机制:
-
公式语法有效性奖励:确保数学公式符合 LaTeX 语法规范。
-
表格完整性奖励:保证表格行列结构完整对应。
-
层级闭合性奖励:验证 Markdown 标题层级标签正确闭合。
-
文本准确性奖励:提升文字识别精度和内容保真度。
-
-
结构幻觉抑制:针对文档解析中常见的表格行错乱、公式编造、层级混乱等问题,通过格式约束和强化学习联合优化,显著降低幻觉发生率。
-
端到端优化:从视觉输入直接生成结构化 Markdown,无需传统 OCR 的多阶段流水线(检测→识别→版面分析→格式化),减少误差累积。
FireRed-OCR的项目地址
-
Github仓库:https://github.com/FireRedTeam/FireRed-OCR
FireRed-OCR的应用场景
-
财务报告数字化:精准提取上市公司财报、审计报告中的复杂表格和财务数据,转换为结构化 Markdown,便于财务分析和数据入库。
-
学术论文解析:识别研究论文中的数学公式、图表标题、参考文献层级,生成标准学术格式文本,助力文献管理和知识提取。
-
合同文档结构化:将扫描版合同、法律文件转换为可编辑的结构化文本,保留条款层级和关键信息,提升法务文档处理效率。
-
书籍杂志电子化:处理扫描版书籍、期刊杂志,还原目录层级和正文排版,快速构建可搜索的数字图书馆。
-
教育资料整理:解析教材、试卷、讲义中的公式和表格内容,转换为适合在线学习的结构化格式,支持教育平台内容建设。
-
档案数字化:帮助企业和机构将历史纸质档案、手写笔记转换为结构化电子文档,实现档案的永久保存和智能检索。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号