表格、图表统统拿下！阿里达摩院开源DocOwl 1.5 无需OCR，高效“读懂”文档！

阿里巴巴达摩院与中国人民大学近日联合开源了一款名为 mPLUG-DocOwl1.5的文档处理模型，该模型主打无需 OCR 识别即可理解文档内容，并在多个视觉文档理解基准测试中取得了领先的性能。

结构信息对于理解富文本图像（例如文档、表格和图表）的语义至关重要。现有的多模态大型语言模型 (MLLM) 虽然具备文本识别能力，但缺乏对富文本文档图像的通用结构理解能力。为了解决这一问题，mPLUG-DocOwl1.5强调结构信息在视觉文档理解中的重要性，并提出了 “统一结构学习” 来提升 MLLM 的性能。

该模型的“统一结构学习”涵盖了5个领域:文档、网页、表格、图表和自然图像，包括结构感知解析任务和多粒度文本定位任务。为了更好地编码结构信息，研究人员设计了一个简单有效的视觉到文本模块 H-Reducer，它不仅可以保留布局信息，还可以通过卷积合并水平相邻的图像块来减少视觉特征的长度，使大型语言模型能够更有效地理解高分辨率图像。

此外，为了支持结构学习，研究团队基于公开可用的数据集构建了一个包含400万个样本的综合训练集 DocStruct4M，其中包含结构感知文本序列和多粒度文本边界框对。为了进一步激发 MLLM 在文档领域的推理能力，他们还构建了一个包含2.5万个高质量样本的推理微调数据集 DocReason25K。

mPLUG-DocOwl1.5采用两阶段训练框架，首先进行统一结构学习，然后在多个下游任务中进行多任务微调。通过这种训练方式，mPLUG-DocOwl1.5在10个视觉文档理解基准测试中均取得了最先进的性能，在5个基准测试中将7B LLM 的 SOTA 性能提升了10个百分点以上。

目前，mPLUG-DocOwl1.5的代码、模型和数据集已在 GitHub 上公开发布。

项目地址：https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

论文地址：https://arxiv.org/pdf/2403.12895