OpenAI之后，英伟达也卷入类似诉讼

2024年03月16日 79813阅读

21世纪经济报道记者冯恋阁实习生肖文�D 广州报道

AI淘金热下，“卖铲人”英伟达也卷入到人工智能版权纷争中。

近日，英伟达和软件公司Databricks被多名作家在旧金山联邦法院提起集体诉讼，称两家公司在训练各自的大模型时“未经同意、未经认可、无补偿”地复制和借鉴了他们的书籍。

数据集侵权，英伟达被诉

根据起诉书，英伟达和Databricks被指控分别使用盗版数字电子书库Books3的数据训练了旗下的大模型NeMo Megatron和MosaicML。“在训练期间，大模型复制并摄取训练数据集中的每个文本作品，并从中提取受保护的表达。”原告认为，两家公司在训练大模型时使用了含有盗版内容的数据集，因此构成著作权侵权。

NeMo Megatron模型托管在大模型社区Hugging Face上。在这个网站中，每个模型都有一个介绍其相关信息的“模型卡”，其中就包括模型的训练数据集信息。

英伟达模型所附的“模型卡”显示，它的训练数据包括EleutherAI提供的数据集“The Pile”。The Pile中包含了800GB的数据，有108GB是来自于Books3的图书数据。据悉，Books3由超过196000册来自影子图书馆Bibliotik的书籍组成。

所谓影子图书馆，是指未经许可收藏了大量享有著作权的书籍，并向公众免费开放的网站。除了本案中的Bibliotik，电子书网站Z-Library、文献网站Sci-Hub等都在此列。深陷版权诉讼中的Open AI此前也曾被质疑使用了来自影子图书馆的数据训练模型。

影子图书馆在版权方面存在一定瑕疵。原告起诉书提到，2023年10月，Hugging Face上的Book3数据集被删除，并附有一条解释：“由于报告的版权侵权，该数据集已失效且无法再访问”。

原告认为，NeMo已经承认在模型训练时采用了The Pile数据集，而The Pile数据集其中就包含了因版权问题被删除的Book3，基于此，NeMo也有著作权侵权的可能。

除了对英伟达的诉讼，三位作家还针对Databricks及其旗下的MosaicML公司发起诉讼。起诉书表示，该公司最近收购了MosaicML公司，而MosaicML生产MPT系列大型语言模型中也使用了Books3数据集进行训练。

据报道，英伟达发言人回应媒体称：“我们尊重所有内容创作者的权利，并相信我们创建 NeMo 完全符合版权法。”

版权成原罪，争议难解

大模型的训练和调整离不开海量数据的输入，这些数据中混入侵权材料的情况也许并不罕见。版权瑕疵似乎也因此成为了大模型的“原罪”。

英伟达并非唯一一家被指控大模型侵犯版权的科技公司。

早在去年1月，美国三名漫画艺术家就对包括Stability AI在内的三家科技公司发起集体诉讼，指控其开发的付费AI图像生成工具构成版权侵权。去年7月，多名喜剧演员、作家对OpenAI和Meta分别发诉讼，指控其侵犯版权。10月，环球音乐集团及其他出版商也起诉美国人工智能公司Anthropic称其滥用“无数”受版权保护的歌词。

日前，也有多位艺术家公开表示，Midjourney在未经他们许可的情况下，模仿他们的画风生成作品并输出的行为是"小偷行为"和对艺术家的不尊重。

而此前《纽约时报》诉 OpenAI “世纪大案”中的两方仍在缠斗。在OpenAI指控《纽约时报》方恶意引导模型生成版权内容后，《纽约时报》回击称此举是为了追踪“该工具侵犯版权的全部范围”。

在国内，大模型侵权的争议也一直存在。2023年6月，北京笔神公司起诉学而思称其窃取其数据；同年12月，正版青团子等四名画师起诉小红书，指控其未经授权使用画师的原创作品作为训练数据。

科技公司大模型屡次遭起诉为拥有AI大模型及欲进入这一领域的科技公司敲响了警钟。

开发可检测AI内容是否侵权的工具或许是一种解法。

今年年初，人工智能模型评估公司Patronus AI发布了一款名为“CopyrightCatcher”的大模型检测工具，用以检测大语言模型的输出结果中是否含有侵权内容。

也有大模型企业选择“破财消灾”，通过签署授权协议达成对版权作品的合规使用。

2023年12月，据媒体报道，有知情人士表示，苹果拿出5000万美元尝试Condé Nast（《Vogue》和《纽约客》的出版商）、NBC和IAC等新闻机构交涉以获得新闻文章的授权，用以其生成式AI产品开发。OpenAI也在今年1月与数十家出版商洽谈签署文章授权协议，以获取数据训练其AI模型。

OpenAI之后，英伟达也卷入类似诉讼

数据集侵权，英伟达被诉

版权成原罪，争议难解

相关阅读

吃高嘌呤食物尿酸就高？这些痛风患者的“忌口”食物其实可以吃！

计划满任务重！今年中国航天这些“首飞”值得期待

冰雪春天｜我们的冰雪梦

新闻多一点︱百年老市场的浓浓烟火气

数据集侵权，英伟达被诉

版权成原罪，争议难解

相关阅读

吃高嘌呤食物尿酸就高？这些痛风患者的“忌口”食物其实可以吃！

计划满 任务重！今年中国航天这些“首飞”值得期待

冰雪春天｜我们的冰雪梦

新闻多一点︱百年老市场的浓浓烟火气

计划满任务重！今年中国航天这些“首飞”值得期待