非营利性 AI 研究机构 Ai2近日发布了其于全新的OLMo2系列,这是该机构推出的“开放语言模型”(OLMo)系列的第二代模型。OLMo2的发布不仅为AI社区提供了强大的技术支持,更以其完全开放源代码的特性,代表了开源AI的最新发展。

与目前市场上其他“开放”语言模型如Meta的Llama系列不同,OLMo2符合开放源代码倡议的严格定义,这意味着用于其开发的训练数据、工具和代码都是公开的,任何人都可以访问和使用。根据开放源代码促进会的定义,OLMo2满足了该机构对“开源AI”标准的要求,这一标准于今年10月最终确定。

Ai2在其博客中提到,OLMo2的开发过程中,所有的训练数据、代码、训练方案、评估方法以及中间检查点都完全开放,旨在通过共享资源,推动开源社区的创新与发现。“通过公开分享我们的数据、方案和发现,我们希望为开源社区提供发现新方法和创新技术的资源。”Ai2表示。

OLMo2系列包括两个版本:一个是70亿参数的OLMo7B,另一个是130亿参数的OLMo13B。参数的数量直接影响模型的表现,参数更多的版本通常能处理更复杂的任务。在常见的文本任务中,OLMo2表现出色,能够完成诸如回答问题、总结文档和编写代码等任务。

图源备注:图片由AI生成,图片授权服务商Midjourney

为训练OLMo2,Ai2使用了包含五万亿个token的数据集。Token是语言模型中最小的单位,100万个token大约等于75万个单词。训练数据包括来自高质量网站、学术论文、问答讨论板以及合成数学练习册的内容,这些数据经过精心筛选,以确保模型的高效性和准确性。

Ai2对OLMo2的表现充满信心,声称其在性能上已与Meta的Llama3.1等开源模型竞争。Ai2指出,OLMo27B的表现甚至超越了Llama3.18B,成为目前最强的完全开放语言模型之一。所有OLMo2模型及其组件均可通过Ai2官网免费下载,并遵循Apache2.0许可,意味着这些模型不仅可以用于研究,也可以用于商业应用。