全新开源 AI 模型 Molmo 横扫业界巨头，超越 GPT-4o 与 Claude 3.5

近日，艾伦人工智能研究所（Ai2）发布了 Molmo，这是一个全新的开源多模 AI 模型家族，表现出色，甚至在多个第三方基准测试中超越了 OpenAI 的 GPT-4o、Anthropic 的 Claude3.5Sonnet 和谷歌的 Gemini1.5。

Molmo 不仅能接受用户上传的图像进行分析，还使用了 “比竞争对手少1000倍的数据” 进行训练，这得益于其独特的训练技巧。

这次发布展示了 Ai2对开放研究的承诺，提供了高性能的模型以及开放的权重和数据，供更广泛的社区和企业使用。Molmo 家族包括四个主要模型，分别是 Molmo-72B、Molmo-7B-D、Molmo-7B-O 和 MolmoE-1B，其中 Molmo-72B 是旗舰模型，包含72亿个参数，表现尤为突出。

根据各项评估，Molmo-72B 在11重要基准测试获得了最高分，并在用户偏好方面仅次于 -4o。Ai2还推出了一款为 OLMoE 的模型，采用了 “小型模型组合” 的方式，旨在提高成本益。

Molmo 的架构经过精心设计，以实现高效和卓越的性能。所有模型使用 OpenAI 的 ViT-L/14336px CLIP 模型作为视觉编码器，将多尺度的图处理成视觉令。语言模型部分是解码器 Transformer，具有不同的容量和开放性。

在训练方面，Mol 经过了两阶段的训练:首先是多模预训练，其次是有监督的微调。与许多现代模型不同，Molmo 并未依赖于人类反馈的强化学习，而是通过细致调优的训练流程来更新模型参数。

Molmo 在多个基准测试中表现优异，特别是在文档阅读和视觉推理等复杂任务中，展现了其强大的能力。Ai2已经在 Hugging Face 上发布了这些模型和数据集，未来几个月还将推出更多模型和扩展技术报告，旨在为研究者提供更多资源。

如果你想了解 Molmo 的功能，现在可以通过 Molmo 的官方网站进行公开演示（https://molmo.allenai.org/）。