近期,纽约时报(The New York Times)和《每日新闻》(Daily News)联合起诉 OpenAI,指控其在未获授权的情况下,使用他们的作品来训练人工智能模型。

此案的发展引发了公众的关注,因为原告的律师团队在最新的法庭文件中指出,OpenAI 的工程师在处理相关数据时,意外删除了可能对案件有重要影响的证据。

据悉,OpenAI 在今年秋季曾同意提供两台虚拟机器,以便原告律师团队能够搜索其训练数据中是否包含版权内容。虚拟机器是一种在计算机操作系统内运行的虚拟计算机,通常用于测试、数据备份和运行应用程序。自11月1日以来,纽约时报和《每日新闻》的法律顾问及其聘请的专家已在 OpenAI 的训练数据上工作了超过150小时。

然而,在11月14日,OpenAI 的工程师意外地清除了其中一台虚拟机器上存储的搜索数据。根据原告律师的信件,尽管 OpenAI 尝试恢复丢失的数据,并且在大多数情况下取得了成功,但由于文件夹结构和文件名称 “不可恢复”,因此恢复的数据无法用于确定新闻原告的文章是如何被用来训练 OpenAI 的模型的。

原告的法律顾问指出,他们并不认为这次删除是故意的,但这起事件表明,OpenAI“在搜索自己的数据集中,寻找潜在侵权内容方面处于最佳位置”。这意味着,OpenAI 应当利用其自身工具来更有效地查找相关的侵权内容。

OpenAI 在这起案件及其他类似案件中,始终坚称,使用公开可用数据进行模型训练是合理使用(fair use)。这意味着,OpenAI 认为其无需为使用这些例子支付版权费用,尽管其从这些模型中获利。

值得一提的是,OpenAI 已经与越来越多的新媒体签署了授权协议,包括美联社、商业内幕、金融时报等,但对于这些协议的具体条款,OpenAI 并未公开。据悉,内容合作伙伴 Dotdash 每年获得至少1600万美元的报酬。

尽管在法律问题上存在争议,OpenAI 并未确认或否认在未获许可的情况下使用特定的版权作品进行 AI 训练。

划重点:

🌐 OpenAI 被指控在版权诉讼中误删了可能的重要证据。

🕒 原告律师表示,为了恢复数据,他们耗费了大量时间和人力。

💼 OpenAI 坚持认为其训练模型使用公开数据属于合理使用。