哈佛大学将发布由 OpenAI 和微软资助的海量免费 AI 训练数据集

哈佛大学周四宣布，将公开一份包含近百万本公共领域图书的高质量数据集，任何人都可以利用它来训练大型语言模型和其他 AI 工具。这份数据集由哈佛大学新成立的机构数据倡议（Institutional Data Initiative）创建，并获得了微软和 OpenAI 的资金支持。其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。

该数据集规模约为用于训练 Meta Llama 等 AI 模型的臭名昭著的 Books3数据集的五倍。它涵盖了各种类型、年代和语言，既有莎士比亚、查尔斯·狄更斯和但丁的经典之作，也有鲜为人知的捷克数学教科书和威尔士语袖珍词典。机构数据倡议的执行主任格雷格·莱珀特表示，该项目的目的是通过让包括 AI 行业的小型参与者和个人研究人员在内的公众，能够获得通常只有老牌科技巨头才有资源组装的高度提炼和精选的内容存储库，从而“创造公平的竞争环境”。他说:“它经过了严格的审查。”

图源备注：图片由AI生成，图片授权服务商Midjourney

莱珀特认为，新的公共领域数据库可以与其他许可材料结合使用，以构建人工智能模型。他说:“我认为它有点像 Linux 如何成为世界上许多领域的基础操作系统一样。” 他指出，公司仍然需要使用额外的训练数据来使其模型与竞争对手的模型区分开来。

微软知识产权副总裁兼副总法律顾问伯顿·戴维斯强调，该公司对该项目的支持符合其关于为 AI 初创公司创建“可访问数据池”的价值的广泛信念，这些数据池“以公众利益为导向”。换句话说，微软不一定计划将其自身模型中使用的所有 AI 训练数据替换为公共领域的替代方案，例如哈佛新数据库中的图书。 “我们使用公开可用的数据来训练我们的模型，”戴维斯说。

除了大量的图书之外，机构数据倡议还与波士顿公共图书馆合作扫描数百万篇来自不同报纸的公共领域文章。该机构表示，它愿意在未来建立类似的合作关系。图书数据集的确切发布方式尚未确定。机构数据倡议已要求 Google 共同参与公共分发，但这家搜索巨头尚未公开同意托管该数据集，尽管哈佛大学表示对此持乐观态度。（Google 没有回应 WIRED 的置评请求。）

无论 IDI 的数据集如何发布，它都将加入一系列类似的项目、初创公司和倡议，这些项目旨在为公司提供大量高质量的 AI 训练材料，而无需承担遇到版权问题的风险。 Calliope Networks 和 ProRata 等公司已经出现，它们发布许可证并设计补偿计划，旨在让创作者和权利持有者因提供 AI 训练数据而获得报酬。

此外，还有其他新的公共领域项目。去年春天，法国 AI 初创公司 Pleis 推出了自己的公共领域数据集 Common Corpus，据项目协调员皮埃尔-卡尔·朗莱斯称，该数据集包含约300万到400万本图书和期刊合集。在法国文化部的支持下，Common Corpus 仅本月就在开源 AI 平台 Hugging Face 上被下载了60，000多次。上周，Pleis 宣布将发布其首批使用该数据集训练的大型语言模型，朗莱斯告诉 WIRED，这些模型构成“有史以来首批完全使用开放数据训练并符合 [欧盟] AI 法案的模型”。

目前，创建类似图像数据集的工作也在进行中。 AI 初创公司 Spawning 于今年夏天发布了名为 Source.Plus 的数据集，其中包含来自 Wikimedia Commons 以及各种博物馆和档案馆的公共领域图像。长期以来，一些重要的文化机构（例如大都会艺术博物馆）也以独立项目的形式向公众开放了自己的档案馆。

Stability AI 的前高管埃德·牛顿-雷克斯（Ed Newton-Rex）现在运营一家认证符合道德规范的 AI 工具的非营利组织。他表示，这些数据集的兴起表明，无需窃取受版权保护的材料即可构建高性能和高质量的 AI 模型。 OpenAI 此前曾告诉英国立法者，如果不使用受版权保护的作品，就“不可能”创建像 ChatGPT 这样的产品。 “像这样的大型公共领域数据集进一步瓦解了一些 AI 公司用来为抓取受版权保护的作品以训练其模型辩解的‘必要性辩护’，”牛顿-雷克斯说。

但他仍然对 IDI 和类似的项目是否真的会改变训练现状持保留态度。 “这些数据集只有在与其他许可数据结合使用以取代抓取的受版权保护的作品时，才会产生积极影响。如果它们只是添加到混合数据集中，成为也包含世界各地创作者未经许可的毕生心血的数据集的一部分，它们将主要使 AI 公司受益，”他说。