Meta遭五大出版商集体起诉：Llama模型被指大规模侵犯版权

Meta公司正面临由Macmillan、McGraw Hill、Elsevier和Hachette等五大出版巨头及一名作家发起的集体诉讼。原告指控Meta在训练其Llama人工智能模型过程中，实施了“历史上最大规模的版权侵权行为之一”。该诉讼指出Meta未经许可使用了大量受版权保护的书籍，甚至存在“逐字逐句”的复制行为。此举再次引发了科技巨头与传统出版业关于AI训练数据合法性的激烈交锋。

核心要点

集体诉讼爆发：Meta公司遭到五大主要图书出版商及一名作家的集体诉讼，指控其在AI训练中存在严重侵权。
核心指控内容：原告称Meta在训练Llama系列大模型时，实施了“历史上最大规模的版权侵权行为之一”。
侵权证据描述：诉讼特别强调了Meta的AI模型存在对受版权保护材料进行“逐字逐句”（word-for-word）复制的情况。
原告阵容强大：参与诉讼的出版商包括Macmillan、McGraw Hill、Elsevier、Hachette等行业巨头。

详细分析

史上最大规模的版权侵权指控

根据《纽约时报》率先报道的消息，Meta公司目前正陷入一场严峻的法律斗争。五大出版商——Macmillan、McGraw Hill、Elsevier、Hachette等，联合一名作家向法院提起集体诉讼。原告方在诉状中使用了极其严厉的措辞，称Meta在开发其Llama人工智能模型时，所涉及的版权侵权行为在规模上是“历史上最严重的”。这一指控直指生成式AI发展的核心：训练数据的获取与使用是否合法。出版商认为，Meta在未经授权的情况下，利用了他们拥有版权的海量书籍来“喂养”其AI系统，从而构建了商业化的技术产品。

“逐字逐句”复制的技术争议

此次诉讼的一个关键点在于“逐字逐句”复制的指控。通常情况下，AI公司辩称其模型是学习语言的模式而非存储具体内容，但原告方指出，Llama模型在输出中表现出了对原始版权材料的精确复制。这种“逐字逐句”的重现被视为Meta直接侵犯著作权的有力证据。对于出版商而言，书籍是其核心资产，而Meta的行为被描述为将这些资产在未支付报酬、未获许可的情况下强行占为己有。这不仅涉及法律层面的合规性，更触及了内容创作行业的生存底线。

行业影响

这起针对Meta的集体诉讼对整个AI行业具有深远的示范意义。首先，它标志着内容持有者（尤其是传统出版业）与科技巨头之间的矛盾已经从口头抗议转向了大规模的法律对抗。如果法院最终支持出版商的诉求，可能会迫使Meta及其他AI开发商重新审视其训练数据的来源，甚至可能需要为过去使用的版权数据支付巨额赔偿或许可费用。

此外，此案将推动法律界对“合理使用”原则在AI时代的重新界定。AI模型是否可以打着“学习”的旗号免费使用受版权保护的作品，或者这种行为是否构成了对原始市场的替代，将成为未来法庭辩论的焦点。对于其他正在开发大模型的科技公司而言，此案的进展将直接影响其数据采集策略和潜在的法律风险评估。

常见问题

问题 1：哪些出版商参与了对Meta的起诉？

目前已知的原告包括Macmillan、McGraw Hill、Elsevier、Hachette等五大主要图书出版商，此外还有一名作家共同发起了这项集体诉讼。

问题 2：诉讼中提到的“逐字逐句”复制意味着什么？

这意味着原告指控Meta的Llama模型不仅是学习了书籍的风格，而且在实际输出或内部存储中能够精确地重现受版权保护的文本内容，这被认为是直接侵权的证据。

问题 3：Meta的哪个产品是此次诉讼的核心？

此次诉讼的核心是Meta开发的Llama系列人工智能模型，原告认为该模型在训练过程中非法使用了他们的版权材料。

五大出版商联手起诉Meta：指控Llama AI模型存在“逐字逐句”大规模侵权行为