英伟达涉版权侵权诉讼，被指从影子图书馆获取 500TB 盗版数据

英伟达涉版权侵权诉讼,被指从影子图书馆获取 500TB 盗版数据

【环球网科技综合报道】1月21日消息,据AlBase报道,芯片巨头英伟达近日陷入一场备受关注的版权集体诉讼。多位图书作者通过修订后的起诉状指控,英伟达为训练自主研发的人工智能模型,蓄意从“安娜档案馆”等多个“影子图书馆”获取海量盗版数据,涉案数据规模达500TB,包含数百万本受版权保护的图书,相关行为已涉嫌侵犯著作权。作

英伟达遭版权诉讼,被指联系影子图书馆获取 500TB 盗版数据

IT之家消息，据 Torrentfreak 报道，英伟达高管曾批准使用“安娜档案馆”的数百万本盗版书籍，为其人工智能模型训练提供数据支持。在一项援引英伟达内部文件的集体诉讼案中，数位图书作者指控这家公司曾直接联系“安娜档案馆”，寻求该影子图书馆数据的高速访问权限。据IT之家了解，芯片巨头英伟达一直是人工智能热潮中的主...

英伟达主动洽谈 Anna's Archive,获取数百万盗版电子书训练 AI

包括 Abdi Nazemian 在内的多名作者在文件中引用英伟达内部邮件和文件,称该公司在竞争压力下 “被驱赶向盗版”,主动从多个盗版数据源获取图书,其中包括备受争议的 Anna’s Archive。起诉书声称,英伟达数据战略团队的一名成员曾主动联系 Anna’s Archive,询问这家 “影子图书馆” 能为这家市值数万亿美元的公司提供...

英偉達身陷版權風暴:被指主動接觸“影子圖書館”獲取數百萬盜版書...

指控指出,儘管對方曾明確提醒其館藏屬於非法獲取,英偉達管理層仍在一週內“開綠燈”批准繼續推進,從而獲得了約500TB 的海量數據訪問權。除了Anna’s Archive,起訴書還提到英偉達可能使用了 LibGen、Sci-Hub 及 Z-Library 等其他“影子圖書館”的數據來源。此外,該公司還被指向企業客戶分發工具,協助其自動獲取包含...

英伟达被指与安娜档案馆暗中接触,企图获取海量盗版数据用于AI训练

近日,有消息称,这家市值万亿美元的科技巨头在一项集体诉讼中被指控曾直接联系安娜档案馆(Anna's Archive),试图获取高达 500TB 的盗版电子书数据,以用于其大模型的训练。这一行为引发了书籍作者们的强烈反对,他们认为英伟达的举动不仅侵犯了版权,还显现出其在竞争压力下的极端手段。

英伟达身陷版权风暴:被指主动接触“影子图书馆”获取数百万盗版书...

指控指出,尽管对方曾明确提醒其馆藏属于非法获取,英伟达管理层仍在一周内“开绿灯”批准继续推进,从而获得了约500TB 的海量数据访问权。划重点: ⚖️ 深陷集体诉讼:多位知名作家联合指控英伟达大规模使用盗版图书训练其 NeMo、Megatron 等核心模型。

英伟达身陷版权风暴:被指主动接触「影子图书馆」获取数百万盗版书...

修正起诉书披露,英伟达被指为保持竞争领先,主动与盗版电子书站点 Anna’s Archive 接触,欲获取数百万本受版权书籍,虽被告知馆藏非法,管理层仍批准推进,获约 500TB 数据访问权。此外,起诉书还提及英伟达可能使用其他「影子图书馆」数据,且向企业客户分发工具协助获取盗版数据集,存在「替代侵权」和「共同侵权」行为。

英伟达被指曾寻求安娜的档案高速访问,数据规模达 500TB 级

就在前脚安娜的档案失去 .org、.se 两个域名,还面临永久禁令之后,torrentfreak 继续爆料:在一项集体诉讼中,几位书籍作者引用了英伟达内部文件,声称这家市值万亿美元的公司直接联系了安娜档案馆,寻求高速访问安娜的档案数据,数据规模达 500TB 级别。有趣的是,安娜的档案曾明确警告英伟达:其所提供的数据为非法获取内...

英伟达涉版权侵权诉讼,被指从影子图书馆获取 500TB 盗版数据

【环球网科技综合报道】1月21日消息,据AlBase报道,芯片巨头英伟达近日陷入一场备受关注的版权集体诉讼。多位图书作者通过修订后的起诉状指控,英伟达为训练自主研发的人工智能模型,蓄意从“安娜档案馆”等多个“影子图书馆”获取海量盗版数据,涉案数据规模达500TB,包含数百万本受版权保护的图书,相关行为已涉嫌侵犯著作权...

OpenAI之后,英伟达也卷入类似诉讼 - 21经济网

数据集侵权,英伟达被诉根据起诉书,英伟达和Databricks被指控分别使用盗版数字电子书库Books3的数据训练了旗下的大模型NeMo Megatron和MosaicML。“在训练期间,大模型复制并摄取训练数据集中的每个文本作品,并从中提取受保护的表达。”原告认为,两家公司在训练大模型时使用了含有盗版内容的数据集,因此构成著作权侵权。

AI版权关键进展:美国连判两案,大模型“偷书”不算偷?|AI_新浪财经_新浪...

而Anthropic案的法官则针对不同使用行为,做出了分项裁定:如果来源合法——比如将纸质书扫描转化为数字文本,可构成合理使用;但如果图书来源于“影子图书馆”等盗版平台,即便后续用于训练AI,依然构成侵权。争议:如何看待“影子图书馆” 数据获取渠道的合法性,会不会影响“合理使用”的认定?法院在这一问题上出现了分歧。在

...81TB Anna's Archive数据训练 AI,却无人追责:版权双重标准的荒谬现...

事情要从 2025 年 2 月说起。在一起作者集体诉讼 Meta 的版权侵权案(Kadrey v. Meta)中,法庭 unsealed(解封)了 Meta 的内部邮件。这些邮件显示,Meta 员工在 2024 年春季通过 Anna's Archive 的 torrent 系统,下载了超过 81.7TB 的数据。这些数据来自多个影子图书馆,包括 Z-Library 和LibGen,涵盖数百万本受...

AI版权风波:巨头深陷侵权泥潭,面临天价赔偿风险_盗版_数据_法律

更为极端的是,一些公司直接采用了盗版书籍作为训练数据。meta在训练Llama模型时,就被曝出使用了来自“影子图书馆”的盗版书籍。相比之下,苹果等谨慎派企业则选择了合法授权和自有数据,以规避潜在的法律风险。随着法律诉讼的不断推进,版权方的策略也在悄然变化。他们不再纠结于AI如何使用数据,而是将焦点转向了数据的获...

全球最大“图书馆”Anna's Archive被判永久删除WorldCat数据

然而，并非所有指控都获得了支持。法院驳回了“侵权性干扰合同关系”的指控，理由是证据不足；同时驳回了“不当得利”的指控，法官裁定该主张已被联邦版权法所优先覆盖（preempted），因此不再单独成立。Anna's Archive 曾在 2023 年 10 月的博客文章中公开承认了抓取行为，声称 WorldCat 拥有“世界上最大的图书馆...

全球最大“图书馆” Anna's Archive 被判永久删除 WorldCat 数据

然而，并非所有指控都获得了支持。法院驳回了“侵权性干扰合同关系”的指控，理由是证据不足；同时驳回了“不当得利”的指控，法官裁定该主张已被联邦版权法所优先覆盖（preempted），因此不再单独成立。Anna's Archive 曾在 2023 年 10 月的博客文章中公开承认了抓取行为，声称 WorldCat 拥有“世界上最大的图书馆...

Anthropic天价赔款?大模型「盗版」的100000种花样|投资界

但这一行为,恰恰证明了:第一,AI公司已充分认识到高质量数据的版权价值;第二,获取合规数据的成本,远比想象中要惊人得多。三、“影子图书馆” 在争分夺秒的技术竞赛和巨大的性能压力下,部分公司选择了一条最高效,也最高风险的捷径——直接拥抱明确的盗版资源库。

英伟达被曝「偷」数据,每天爬取超80年视频数据量,北大数据集也遭殃

404 Media 获得的内部 Slack 聊天记录、电子邮件和文件显示,英伟达从 YouTube 和其他多个来源抓取视频,以为其 AI 产品编译训练数据。当被问及使用受版权保护内容训练 AI 模型的法律和伦理问题时,英伟达辩称其做法「完全符合版权法的字面和精神。」 404 Media 查看过的英伟达内部对话显示,当员工对使用由学者为研究目的...

我用盗版书训练人工智能 - 知乎

在AI头部大厂们版权官司缠身的当下,Patronus AI此举可以算是给版权方们“递刀子”。训练数据是AI的食粮。从ChatGPT奇迹开始,训练数据来源的法律纠纷就始终相伴,在可见的未来还会继续纠缠下去,成为当下AI技术注定的无解难题。从人工智障到AI女友的秘密

英伟达版Sora被曝违规抓取大量数据,官方表示不服

如今据一位前员工爆料称，员工会被要求从YouTube、奈飞等来源来抓取数据。他们会使用一个名为yt-dlp的开源YouTube视频下载器，它能使用虚拟机来刷新IP地址，以避免被YouTube屏蔽。为此，英伟达向404 Media回应称：我们尊重所有内容创作者的权利，并相信我们的模型和研究工作完全符合版权法的条文和精神。版权法保护特定...

英伟达被曝「偷」数据,每天爬取超80年视频数据量,北大数据集也遭殃

404 Media 获得的内部 Slack 聊天记录、电子邮件和文件显示，英伟达从 YouTube 和其他多个来源抓取视频，以为其 AI 产品编译训练数据。当被问及使用受版权保护内容训练 AI 模型的法律和伦理问题时，英伟达辩称其做法「完全符合版权法的字面和精神。」404 Media 查看过的英伟达内部对话显示，当员工对使用由学者为研究...