Ovis1.6 阿里国际AI团队推出的多模态大模型，超过闭源GPT-4o-mini

Ovis1.6是什么

Ovis1.6是阿里国际AI团队推出的多模态大模型，在多模态权威综合评测基准OpenCompass上取得了优异的成绩，特别是在30亿参数以下的模型中综合得分排名第一，超越了其他主流模型。Ovis1.6模型在数学推理、视觉理解等多项任务中表现出色，甚至超过闭源的GPT-4o-mini模型。Ovis1.6能处理包括文本和图像在内的多种数据输入，具备强大的视觉感知推理、数学和科学问题解答、生活场景理解等多模态任务处理能力。

Ovis1.6 阿里国际AI团队推出的多模态大模型，超过闭源GPT-4o-mini 第1张

Ovis1.6的主要功能数学推理问答：准确回答各种数学问题，包括复杂的数学公式和逻辑推理。物体识别：识别不同物体，例如花卉品种，表明其在图像识别方面的能力。文本提取：支持多种语言的文本提取，Ovis1.6能从各种文档中识别和提取文本信息。复杂任务决策：处理和理解多种类型的数据输入，进行复杂的决策任务，如图像和文本的综合分析。图像理解：在图像理解任务上达到SOTA（State of the Art）水平，能处理高分辨率和极端长宽比的图像。Ovis1.6的技术原理创新架构设计：Ovis1.6基于视觉tokenizer加上视觉嵌入表和大语言模型的架构。设计引入可学习的视觉嵌入表，将连续的视觉特征转换为概率化的视觉token，再通过视觉嵌入表多次索引加权得到结构化的视觉嵌入，提升多模态任务的表现。高分图像处理：Ovis1.6支持处理极端长宽比的图像，并且兼容高分辨率图像，使模型在图像理解任务上展现出色的能力。全面数据优化：Ovis1.6在训练中使用多种类型的数据集，包括Caption、VQA、OCR、Table、Chart等，全面数据覆盖显著提升模型在多模态问答、指令跟随等任务上的表现。卓越模型性能：在多模态权威综合评测OpenCompass上，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得综合排名第一的成绩，展现了优异的性能。Ovis1.6的项目地址GitHub仓库：https://github.com/AIDC-AI/OvisHuggingFace模型库：https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9BarXiv技术论文：https://arxiv.org/pdf/2405.20797Ovis1.6的应用场景教育和学习辅助：Ovis1.6能准确回答数学问题，识别和解释数学公式，作为教育工具，能帮助学生学习和理解复杂概念。农业和植物识别：通过物体识别能力，Ovis1.6帮助识别不同品种的植物，对农业研究和植物保护等领域有重要作用。语言翻译和文本处理：支持多种语言的文本提取和翻译，适用于跨语言交流、国际商务和多语言内容创作。图像识别和分析：识别手写字体和复杂图像，适用于图像内容审核、安全监控和艺术作品分析。自动驾驶：整合视觉数据，提高自动驾驶车辆的环境感知和决策能力，增强行车安全。医疗诊断：辅助医生进行医学图像分析，提高疾病诊断的准确性和效率。

Ovis1.6 阿里国际AI团队推出的多模态大模型，超过闭源GPT-4o-mini

亚马逊推出一大波生成式 AI 工具，购物体验全面升级

RapidPages AI驱动的集成开放环境，实时生成UI组件和CSS代码

Ovis1.6 阿里国际AI团队推出的多模态大模型，超过闭源GPT-4o-mini

亚马逊推出一大波生成式 AI 工具，购物体验全面升级

RapidPages AI驱动的集成开放环境，实时生成UI组件和CSS代码

相关文章