Qwen团队近日宣布开源其最新研发的多模态推理模型QVQ,标志着人工智能在视觉理解和复杂问题解决能力方面迈出了重要一步。该模型基于Qwen2-VL-72B构建,旨在通过结合语言和视觉信息,提升AI的推理能力。在MMMU评测中,QVQ取得了70.3的高分,并在多项数学相关基准测试中相较Qwen2-VL-72B-Instruct显示出显著的性能提升。

QVQ模型在视觉推理任务中展现出了特别的优势,特别是在需要复杂分析思维的领域。尽管QVQ-72B-Preview表现出色,但团队也指出了模型存在的一些局限性,包括语言混合和代码切换问题、可能陷入循环逻辑模式、安全和伦理考虑以及性能和基准限制。团队强调,尽管模型在视觉推理方面有所改善,但它无法完全替代Qwen2-VL-72B的能力,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。

Qwen团队在四个数据集上对QVQ-72B-Preview进行了评估,包括MMMU、MathVista、MathVision和OlympiadBench,这些数据集旨在考察模型在视觉相关的综合理解和推理能力。QVQ-72B-Preview在这些基准测试中表现出色,有效缩小了与领先模型之间的差距。

为了进一步展示QVQ模型在视觉推理任务中的应用,Qwen团队提供了几个示例,并分享了技术博客的链接。此外,团队还提供了模型推理的代码示例,以及如何使用魔搭API-Inference直接调用QVQ-72B-Preview模型的方法。魔搭平台的API-Inference为QVQ-72B-Preview模型提供了支持,用户可以通过API调用的方式直接使用该模型。

模型链接:

https://modelscope.cn/models/Qwen/QVQ-72B-Preview

体验链接:

https://modelscope.cn/studios/Qwen/QVQ-72B-preview

中文博客:

https://qwenlm.github.io/zh/blog/qvq-72b-preview