InfiMM-WebMath-40B 字节联合中科院开源的超大规模多模态数据集

InfiMM-WebMath-40B是什么

InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集，旨在提升多模态模型的图文混合推理能力，在数学领域。数据集从 Common Crawl 中提取，经过严格的筛选、清洗和标注，包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记，涵盖了丰富的数学和科学相关内容。InfiMM-WebMath-40B 能显著提升模型在数学推理方面的能力，在 MathVerse 和 We-Math 等基准测试中取得了优异的成绩。

InfiMM-WebMath-40B 字节联合中科院开源的超大规模多模态数据集第1张

InfiMM-WebMath-40B的主要功能提升数学推理能力： InfiMM-WebMath-40B 包含大量的数学和科学相关内容，包括文本、公式、符号和图像，帮助 MLLMs 学习数学知识，提升其在数学推理方面的能力。理解多模态信息：该数据集是多模态的，包含文本和图像数据，帮助 MLLMs 学习如何将文本和图像信息结合起来进行推理，更好地理解复杂的数学概念和问题。P2 促进模型应用：基于 InfiMM-WebMath-40B 预训练的 MLLMs 能更好地应用于数学相关的应用程序，例如数学题库、数学学习工具、数学论文阅读和理解等。InfiMM-WebMath-40B的技术原理数据来源：基于Common Crawl，包含互联网公开网页内容的大型数据库。数据筛选：基于关键词匹配，保留包含数学、公式等特定词汇的页面。设置阈值条件，例如每个文档中至少包含一定数量的 LaTeX 符号。用 fastText 进行语言过滤，只保留中英文内容。数据提取：用 Trafilatura 库提取文本内容。分析网页中的图像 URL，提取与数学内容相关的图像。数据清洗：用 MinHash 等技术进行去重。采用基于规则的过滤方法，例如去除包含“lorem ipsum”的短文档、过滤掉含有不适当内容的文档及排除包含 Unicode 错误的文档等。数据标注：用 LLaMA3-70B-Instruct 模型对数学内容进行评分，并用 fastText 分类器进行高精度过滤。InfiMM-WebMath-40B的项目地址HuggingFace模型库：https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40BarXiv技术论文：https://arxiv.org/pdf/2409.12568InfiMM-WebMath-40B的应用场景数学题库和评估工具：开发者训练 MLLMs，使其能够自动生成数学题目、评估学生答案并提供反馈，构建智能化的数学题库和评估工具。数学学习工具和平台：帮助 MLLMs 更好地理解数学概念和公式，开发出更智能的数学学习工具和平台，例如提供个性化学习建议、解答学生疑问、辅助数学解题等。数学论文阅读和理解： MLLMs 提升对数学论文的理解能力，开发出能够自动摘要、翻译和解释数学论文的工具。数学研究：为数学研究提供数据支持，例如用于训练数学模型、进行数学实验和分析数学数据等。其他科学领域： InfiMM-WebMath-40B 包含科学相关的内容，例如物理、化学、生物等，训练 MLLMs 理解科学概念、公式和图像，并辅助科学研究和应用。