AI巨头陷版权风暴,免费的“数据盛宴”即将散场?
近日,备受关注的德里亚·巴茨 (Andrea Bartz) 等诉Anthropic公司的集体诉讼案以一项高达15亿美元的和解协议暂告段落。该案自立案之初便牵动科技界与版权界神经,其最终处理结果及创纪录的和解金额,在AI行业内引发强烈震动。
一、案件情况及核心争议
2024年8月,本案原告方是以安德里亚·巴茨 (Andrea Bartz) 为代表的作家群体,他们对美国人工智能公司Anthropic提起集体诉讼,指控其在训练其著名的大语言模型Claude时,系统性地、大规模地使用了从“Library Genesis”等知名盗版网站非法获取的数百万本受版权保护的图书。
原告方认为,这是一种赤裸裸的版权侵犯行为,Anthropic实质上是利用窃取而来的知识成果,构建了其商业帝国的基石。
原告方提交的证据主要集中在证明 Anthropic 的AI模型Claude能够生成与他们作品高度相似甚至逐字逐句相同的内容。此外,Anthropic曾公开承认使用了名为“The Pile”的大型数据集来训练Claude。The Pile包含了来自一个名为Books3的子集,而该子集被指包含了大量盗版书籍。
Anthropic的抗辩理由,则主要着眼于合理使用 (Fair Use) 原则。他们主张,使用这些书籍数据训练AI模型,旨在创造出全新的、具有变革性的工具,其目的 (训练一个能理解和生成人类语言的 AI) 与原作 (供人类阅读和欣赏) 完全不同,并非简单复制或替代原作,因此应当被认定为合理使用。
这起诉讼自提起以来,引起了科技界和出版界的广泛关注,被视为界定 AI 训练数据版权问题的标志性案件之一。
2025年6月,加州北区地方法院的威廉·阿尔苏普 (William Alsup) 法官作出了一项关键的混合裁决。
这一裁决没有全盘否定AI训练属于合理使用的可能性,而是做出了精准的区分:对于Anthropic合法购买并用于训练的书籍,法官倾向于认定其属于合理使用。然而,对于那些从盗版网站非法下载的书籍,法官明确裁定,这种行为“本质上、不可救药地构成侵权”,无法受到合理使用原则的庇护。
这一裁决为案件的后续发展,特别是最终的和解,奠定了重要基础。
它意味着,如果案件进入最终审判,Anthropic将对其使用盗版书籍的行为承担必败的法律后果,面临的可能是天文数字的法定赔偿。这极大地削弱了Anthropic的谈判地位,最终各方于2025年8月下旬达成了一项具有约束力的和解协议。
根据2025年9月5日提交给法院的文件,Anthropic同意支付至少15亿美元以了结这起集体诉讼,协议还包括销毁相关盗版数据等严苛条款。
二、Anthropic选择和解的深层逻辑
Anthropic 最终选择和解,本质是对合理使用原则适用边界与本案裁判倾向的理性判断。 本案的核心法律争议点,也是所有AI训练数据版权纠纷的焦点,在于合理使用原则的适用。
这是一个法律概念,而非技术概念。简单来说,它允许在某些特定情况下,未经版权人许可而使用其作品,例如评论、新闻报道、教学和研究。法院在判断是否构成合理使用时,通常会考量如下四个方面因素:
(1)使用的目的和性质。 这是本案的核心。AI公司主张的变革性使用是关键。本案中,法官部分认同,将书籍数据转化为一个能理解和生成语言的AI模型,确实具有变革性。但是,法官的裁决引入了一个至关重要的先决条件——来源的合法性。一个行为即使在目的上具有变革性,但如果其手段建立在非法获取的基础上,就玷污了其性质。法官的意见可以通俗地理解为:创新的过程不能为非法的起点“洗白”。
(2)版权作品的性质。 本案涉及的是小说、非虚构类书籍等创造性作品。法律对这类作品的保护力度,远高于对事实性汇编作品 (如统计年鉴、手册指南等) 的保护。使用创造性作品进行训练,本身就使得合理使用的认定更为困难。
(3)使用部分的数量和内容的实质性。 AI大模型的训练,通常需要喂食完整的作品,而非片段。Anthropic使用了整本书的内容,包括作品的全部内容、风格、结构和信息。从法律上讲,使用作品的全部或核心部分,会严重削弱合理使用的主张。
(4)使用对版权作品潜在市场或价值的影响。 AI模型是否有能力生成替代原作的内容 (如书籍摘要、续写等) ,从而损害原作者的市场?这是争议焦点之一。虽然短期内AI尚不能完全替代作家的创作,但其潜力已经对版权市场构成了可预见的威胁。特别是本案中,原告已经举证Claude模型能够生成与他们作品高度相似甚至逐字逐句相同的内容。
综上所述,结合本案案情,Anthropic的合理使用抗辩在四个关键因素的考量下都处于下风,尤其是在其数据来源存在重大法律瑕疵以及对潜在市场构成严重破坏这两点上。
阿尔苏普法官此前的裁决,已经为AI行业的合理使用抗辩划下了明确的红线:建立在非法行为基础上的使用,不可能被认为是合理的。当Anthropic从盗版网站下载数据的那一刻起,其行为的侵权性质就已经确定,后续的训练过程无论技术上多么创新,都无法改变其源头的原罪。
在法官明确否定了其对盗版数据使用的合理使用抗辩后,Anthropic实际上已经输掉了案件的核心部分。
摆在他们面前的,是一个极其不利的局面,如果案件进入审判,陪审团将主要决定赔偿金额。
根据美国版权法,对于故意侵权,每部作品的法定损害赔偿额最高可达15万美元。考虑到涉案书籍数量可能高达数百万册,理论上的最高赔偿额将是一个足以让任何公司破产的天文数字。
此外,相关诉讼也可能导致对Anthropic公司无可挽回的声誉损害,并伴随着业务发展的不确定性。因此,选择和解,对Anthropic而言,并非承认失败,而是在法律败局已定的情况下,做出的最理性的商业决策:用金钱换取确定性,切割法律风险,为公司的未来扫清障碍。
三、余波与前瞻:AI行业的规则将被重塑
作为AI行业中备受关注的案件,本次事件的影响绝不止于Anthropic一家公司,它将像一块投入湖面的巨石,在整个AI行业激起层层涟漪,其影响将是深远且结构性的。
1、数据合规将成为AI企业的必修课
过去,许多AI公司在技术中立的旗帜下,奉行一种近乎数据掠夺的模式,即尽可能广泛地抓取网络上的一切公开数据,而对其版权状态常常选择性忽视。Anthropic案的和解为此模式敲响了警钟,可以预见的是,近期将会有众多版权人受本案影响选择尽快提起诉讼,关于AI数据的案件将越来越多。
未来,获取高质量、大规模且合规的训练数据,将从一个技术问题,转变为一个核心的商务与法务问题。AI公司将不得不将数据授权和采购成本,正式计入其核心运营成本中。无法证明数据来源清白的模型,将随时可能成为一颗定时炸弹,给企业带来巨大的法律和财务风险。
2、AI数据许可市场可能将迎来爆发式增长
当免费午餐不复存在,AI公司将不得不转向与内容创作者和版权所有者建立合作关系。这将催生一个全新的、庞大的数据授权市场。
我们可以预见,新闻集团、出版商、图片库、音乐公司等内容持有者将成为这个市场的重要参与者,通过向AI公司授权其内容用于模型训练,来开辟新的收入来源。
未来,我们可能会看到类似音乐版权集体管理组织的“AI训练数据授权联盟”的出现,它将作为桥梁,高效地连接起数以百万计的创作者和AI模型,形成一个持续的授权生态。
3、合规AI将成为新的竞争力
随着企业级客户将AI深度整合进其业务流程,它们对AI供应商的法律风险审查将变得空前严格。没有一家大型企业愿意因为其使用的AI服务,而卷入一场知识产权侵权诉讼。
因此,“我们的模型是基于完全合法授权的数据训练的”将不再只是一句公关说辞,而会成为一项极具价值的核心竞争力。能够证明其数据链路清晰、合规的企业,将在争取金融、法律、医疗等高度重视合规性的行业客户时,获得巨大的竞争优势。反之,那些数据来源模糊不清的模型,将被视为风险产品,其商业化应用将受到极大限制。
对于每一家AI企业而言,Anthropic案的和解并非远方的故事,而是近在眼前的镜子。当数据的免费午餐盛宴散场,每一位座上客都必须思考,自己脚下的路将通往何方。
未来的AI巨头,其伟大绝不仅仅在于参数的规模或能力的涌现,而在于其从诞生之初的合规根基。
本文来自微信公众号: 腾讯科技 ,作者:李昀锴,编辑:晓静