阿里巴巴达摩院与中国人民大学近日联合开源了一款名为 mPLUG-DocOwl1.5的文档处理模型,该模型主打无需 OCR 识别即可理解文档内容,并在多个视觉文档理解基准测试中取得了领先的性能。

结构信息对于理解富文本图像(例如文档、表格和图表)的语义至关重要。 现有的多模态大型语言模型 (MLLM) 虽然具备文本识别能力,但缺乏对富文本文档图像的通用结构理解能力。为了解决这一问题,mPLUG-DocOwl1.5强调结构信息在视觉文档理解中的重要性,并提出了 “统一结构学习” 来提升 MLLM 的性能。

该模型的“统一结构学习”涵盖了5个领域:文档、网页、表格、图表和自然图像,包括结构感知解析任务和多粒度文本定位任务。 为了更好地编码结构信息,研究人员设计了一个简单有效的视觉到文本模块 H-Reducer,它不仅可以保留布局信息,还可以通过卷积合并水平相邻的图像块来减少视觉特征的长度,使大型语言模型能够更有效地理解高分辨率图像。

此外,为了支持结构学习,研究团队基于公开可用的数据集构建了一个包含400万个样本的综合训练集 DocStruct4M,其中包含结构感知文本序列和多粒度文本边界框对。 为了进一步激发 MLLM 在文档领域的推理能力,他们还构建了一个包含2.5万个高质量样本的推理微调数据集 DocReason25K。

mPLUG-DocOwl1.5采用两阶段训练框架,首先进行统一结构学习,然后在多个下游任务中进行多任务微调。通过这种训练方式,mPLUG-DocOwl1.5在10个视觉文档理解基准测试中均取得了最先进的性能,在5个基准测试中将7B LLM 的 SOTA 性能提升了10个百分点以上。

目前,mPLUG-DocOwl1.5的代码、模型和数据集已在 GitHub 上公开发布。

项目地址:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

论文地址:https://arxiv.org/pdf/2403.12895