哈佛大学发布千万级书籍数据集为AI模型提供高质量训练材料

哈佛大学近日宣布，计划发布一个由近100万本公共领域书籍组成的数据集，任何人都可以使用该数据集来训练大型语言模型和其他人工智能工具。

此项目由哈佛大学新成立的机构数据计划（Institutional Data Initiative）主导，并在微软与OpenAI的资助下完成。该数据集包括来自谷歌Books项目的扫描书籍，涵盖了莎士比亚、狄更斯、但丁等经典作品，以及一些晦涩的捷克数学教科书和威尔士词典等内容。

图源备注：图片由AI生成，图片授权服务商Midjourney

这一数据集被称为“Books3数据集”的五倍大，旨在为人工智能领域提供一个公平的竞争环境，让公众，特别是小型AI公司和个人研究人员，能够访问到通常只有大型科技公司才能收集到的高质量数据。格雷格•莱珀特（Greg Leppert）表示，该项目经过了严格筛选，内容精心策划。

微软副总裁伯顿·戴维斯强调，微软支持该项目的目的是为了为初创公司创造一个“可访问数据池”，并确保这些数据以“公众利益为基础”进行管理。OpenAI的知识产权主管汤姆·鲁宾也表示，该公司很高兴能够支持这一项目。

随着关于AI使用版权数据的诉讼不断增多，类似哈佛这一公共领域数据集的项目正在成为AI训练数据的一个重要来源。虽然目前还不清楚该数据集具体如何发布，但它预计将为企业提供大量高质量的数据，同时避免版权问题的困扰。

哈佛大学的“机构数据倡议”计划不仅限于书籍，还与波士顿公共图书馆合作，扫描了数百万篇公共领域的报纸文章，并计划将来与更多合作伙伴进行类似合作。此外，哈佛也正在与谷歌合作，商讨如何实现数据集的公共分发。

这一项目将加入多个类似的倡议，这些项目也承诺提供高质量的AI训练材料，并且避免版权风险。未来，随着更多公共领域数据集的出现，AI公司将有更多的选择来训练其模型，同时减少版权相关的法律风险。

哈佛大学发布千万级书籍数据集 为AI模型提供高质量训练材料