OpenAI被指意外删除侵权证据，纽约时报怒告追责!

近期，纽约时报（The New York Times）和《每日新闻》(Daily News)联合起诉 OpenAI，指控其在未获授权的情况下，使用他们的作品来训练人工智能模型。

此案的发展引发了公众的关注，因为原告的律师团队在最新的法庭文件中指出，OpenAI 的工程师在处理相关数据时，意外删除了可能对案件有重要影响的证据。

据悉，OpenAI 在今年秋季曾同意提供两台虚拟机器，以便原告律师团队能够搜索其训练数据中是否包含版权内容。虚拟机器是一种在计算机操作系统内运行的虚拟计算机，通常用于测试、数据备份和运行应用程序。自11月1日以来，纽约时报和《每日新闻》的法律顾问及其聘请的专家已在 OpenAI 的训练数据上工作了超过150小时。

然而，在11月14日，OpenAI 的工程师意外地清除了其中一台虚拟机器上存储的搜索数据。根据原告律师的信件，尽管 OpenAI 尝试恢复丢失的数据，并且在大多数情况下取得了成功，但由于文件夹结构和文件名称 “不可恢复”，因此恢复的数据无法用于确定新闻原告的文章是如何被用来训练 OpenAI 的模型的。

原告的法律顾问指出，他们并不认为这次删除是故意的，但这起事件表明，OpenAI“在搜索自己的数据集中，寻找潜在侵权内容方面处于最佳位置”。这意味着，OpenAI 应当利用其自身工具来更有效地查找相关的侵权内容。

OpenAI 在这起案件及其他类似案件中，始终坚称，使用公开可用数据进行模型训练是合理使用（fair use）。这意味着，OpenAI 认为其无需为使用这些例子支付版权费用，尽管其从这些模型中获利。

值得一提的是，OpenAI 已经与越来越多的新媒体签署了授权协议，包括美联社、商业内幕、金融时报等，但对于这些协议的具体条款，OpenAI 并未公开。据悉，内容合作伙伴 Dotdash 每年获得至少1600万美元的报酬。

尽管在法律问题上存在争议，OpenAI 并未确认或否认在未获许可的情况下使用特定的版权作品进行 AI 训练。